数据产品经理的一些总结(中)—数据ETL

上一篇介绍了数据产品开发过程中的数据采集部分,本篇主要讲述数据ETL的部分。

数据ETL概述

ETL:是Extract-Transform-Load的缩写,即从来源端的数据抽取(Extract)、转换(Transform)、加载(Load)到目的端的过程。

从数据采集到数据ETL的目的是将数据处理成可用数据,将不规范的,仍有其他释义的转化为可用的,统一的规范的数据,用于数据仓库的建设。

经验和教训

1.ETL转换过程中的几点经验:

a.空值处理:捕获字段空值,将其进行加载或条换为其他含义的数据,并可以根据字段空值实现分流加载到其他部门的数据库中,方便该业务团队进行分析;

b.规范化......

数据产品经理的一些总结(中)—数据采集

上一篇介绍了数据产品经理的一些职责,本篇主要通过数据开发流程描述每个阶段的数据产品的产出。

按照产品开发流程,主要包含了以下几部分。数据采集,数据ETL(抽取,清洗,转换,装载),数据仓库,数据应用。

数据采集部分

数据采集概述

1.采集目的:

获取数据,用于后续的建模,建立数据仓库提供统一的数据分析做准备。

2.采集的数据源:

以O2O企业为例,大体包含了以CRM/ERP/OA系统为主的业务数据,以网站日志采集的行为数据(过程数据),其他数据( 和第三方公司交换的数据,爬虫数据等)

3.采集数据原则:

采集业务数据需要保持数据的幂等性(数据可重复拉取,且不影响结果)......

分享会运营复盘

8W2,策划&线上运营了一场线上的分享会,现在对运营&执行方案进行复盘。

基础复盘

运营(本次分享的Key不是听众人数,Key点是:做思考与内容沉淀)

1.找到几个核心:

a .分享者是谁[非变量]:分享者的背景,从业经历对于分享主题的好处/坏处;

b .听众是谁: 本次分享的目标用户(1.思考的贡献者;2.普通听众)

c .分享内容是什么 :宽泛的,还是有针对性的;理论性的还是接地气的;被大众熟知的,还是隐藏很深的;

d .关键点:撮合分享者多说有意义的内容,撮合提问者多问经过思考的内容;

e .数据反馈:达到什么样的转化,关键指标衡量 [问卷填写数,听众数,活跃用户......

Mysql日期查询方法

通过Mysql查询今天,昨天,近7天,近30天,本月,上一月的数据方法。

查询今天的信息记录:

select * from `article` where to_days(`add_time`) = to_days(now());

查询昨天的信息记录:

select * from `article` where to_days(now()) – to_days(`add_time`) <= 1;

查询近7天的信息记录:

select * from `article` where date_sub(curdate(), INTERVAL 7 DAY) <= dat......

Eclipse图表工具Birt的使用技巧

写在前言:对于数据产品而言,报表是数据产品的必要组件。在调研了润乾,Pentaho,Looker,Birt等组件后,最终决定选择Birt。

1. 报表参数传递

参数传递的应用场景比较广泛,在Birt设计器中有两个位置涉及到参数,一个是DataSet数据集创建的时候,有一个Parameters选项,另外就是在Data Explorer中有一个Report Parameters,这里主要介绍后者.因为Birt参数的对外接口就是Report Parameters,数据集中的参数也要通过这个报表参数去设置.

首先新建一个报表参数,如图: