上一篇介绍了数据产品经理的一些职责,本篇主要通过数据开发流程描述每个阶段的数据产品的产出。

按照产品开发流程,主要包含了以下几部分。数据采集,数据ETL(抽取,清洗,转换,装载),数据仓库,数据应用。

数据采集部分

数据采集概述

1.采集目的:

获取数据,用于后续的建模,建立数据仓库提供统一的数据分析做准备。


2.采集的数据源:

以O2O企业为例,大体包含了以CRM/ERP/OA系统为主的业务数据,以网站日志采集的行为数据(过程数据),其他数据( 和第三方公司交换的数据,爬虫数据等)


3.采集数据原则:

采集业务数据需要保持数据的幂等性(数据可重复拉取,且不影响结果);


4.阶段的产出:

· 统一的数据采集格式;

· 数据PD对业务的数据采集推动能力和反向搭建系统的推动能力;

经验和教训

踩过的坑:

1.行为数据以消息形式进行传送到数据平台,会有数据损耗(不能避免);

2.某些数据需要在业务系统进行埋点,但业务重视程度不高,出错几率高,数据团队维护成本巨大

3.由于数据平台采集数据是跨多条业务线的,所以制定统一的数据采集格式极其重要,包含了必要的信息,和一些辅助性的信息。比如我们的格式是(采集标识,用户标识,业务线,行为类型;关键信息,辅助信息等)

4.业务开发不完全了解自己开发的业务,增加了数据团队与业务的沟通成本(导致采集错误等···);

5.业务系统采集的数据未必满足运营的分析需要。运营需求“投诉率大量增高的原因”,但是系统中并没有被系统记录,只通过Excel进行记录。

6.数据源不足够或数据不完整,导致数据产品残缺 or 项目组重复工作量;


解决方案:

1.关键节点数据,采用监控系统,数据上报,分钟级监控数据(可配置阀值),Dashboard;

2.自动化测试,对埋点进行自动化测试,包含Web端和APP端的测试,降低出错几率;

3.核心数据采集,采取以业务数据库为主;对于行为数据,通过埋点进行获取行为数据;

4.对于业务系统采集的数据不满足运营分析的需要,反向驱动业务人员录入“系统”(临时搭建的数据格式化采集系统),反向收集数据。

相关资料:

1.数据库:Mongodb 3.0 & Mysql

2.数据采集工具:Pentaho的数据采集组件Spoon;