写在前面

1.对于数据产品经理而言,熟悉Hadoop生态-Hue是一门必备的学科。通过hue,我们可以完成自主/有效的进行分析以及定时任务观察数据的变化。

2.公司数据量级达到一定规模后,大多使用数据仓库。这其中可能用到Hadoop生态的Web管理界面Hue。通过Hue,我们可以执行Mapreduce的任务,或者通过Hql进行数据分析。

由于Hue功能的强大型,本篇文档主要介绍Hue的定时任务部署-Oozie

前期准备

1.Hue安装/部署成功;

2.编写基于Shell的脚本;

部署流程

1.Oozie-workflow编辑器创建任务:

2.设置相关参数:

3.上传/新建统计逻辑到指定文件夹:

4.配置Oozie编辑器-Coordinator

以上步骤配置完成,基本跑通一个定时任务部署的流程。最后定时任务发送的内容可通过参数进行配置,发送附件/发送报表样式等;

关于使用Hue部署定时任务的一些坑:

1.修改workflow,必须删除Coordinator,之后新建Coordinator;

关于HUE:

1.Hue是一套开源的Apach HadoopUI系统,由Cloudera贡献给开源社区,它是基于Python Django实现。

2.通过Hue,我们可以在控制台与Hadoop集群进行交互来分析处理数据,如执行MapReduce Job,操作定时任务等。