数据中台之数据体系建设
文章分类:APP行业动态 发布时间:2020-05-28 原文作者:Shi Yongfeng 阅读( )
1、数据体系规划
中台数据体系具备特征:
-
覆盖全域数据
-
结构层次清晰:纵向数据分层,横向主题域与业务划分
-
数据准确性一致:定义一致性指标、统一命名、统一计算口径
-
性能提升
-
降低成本
-
方便易用
数据中台体系架构数据分层
-
贴源数据层ODS:操作数据层,对各个业务数据进行采集、汇聚、整合、增加数据标识、非结构转化为结构数据等,不做深度清洗加工——数据汇聚接入,例如:东方国信爬虫、新大陆数据汇聚接入
-
统一数仓层DW:细分为DWD(明细数据层)与DWS(汇总数据层),对业务数据进行建模存储。按业务角度从新定义组织一致的标准、维度、形成统一的标准业务数据体系——数据整合清洗,HiveSQL开发,数据清洗
-
标签数据层TDM:面向建模对象,通过ID-Mapping打通各个业务板块,形成对象的全域标签体系,方便深度分析、挖掘、应用——数据打标签,例如:客户RFM等级分类
-
应用数据层ADS:应用业务使用的的数据均只来源于标签层与应用层——适用于应用业务的机器学习数据挖掘的结果,例如:客户销售精细化分析
2、贴源数据层建设(ODS)——全域数据统一存储
2.1相关概念:这里的ODS层,是指做多源数据的汇聚、整合。但传统的ETL的ODS系统是指数据交换、实时性、报表等功能。
-
整合的三种数据分类:结构化数据(表)、半结构化数据(JSON)、非结构化数据(图片、视频)
2.2数据表设计:
-
前缀+业务系统表名:例如fjyd_ods.ods_customer或ODS_fjyd_ods_customer
-
字段类型保持一致:用double类型
-
采用后缀标识:ODS_fjyd_ods_customer_delta
-
日志、JSON等半结构化数据,数据解析到结构化数据表中
2.3数据表实现:一般使用数据同步工具,例如,DataPhin,实现ODS数据同步。步骤分为:发布采集、加入生产调度、配置参数限速、容错监控、告警机制
3、统一数仓层建设(DW或CDM)——标准化的数据底座
维度建模具备特点:
3.1相关概念:建模工作按照这些维度展开
-
业务板块:个人与集团、医疗、金融、地产、电信等
-
模型设计
-
数据域:例如,采购域、供应链域、财务域、HR域等
-
业务过程
-
修饰词
-
指标设计
-
计算方法
-
维度表
-
事实表
-
粒度
-
一致性指标含义
3.2数据域的划分
-
第一阶段:数据调研
-
第二阶段:业务分类
-
第三阶段:数据域定义
-
第四阶段:总线矩阵构建:数据域与业务过程图
3.3指标设计:
-
原子指标+时间修饰+其他修饰词/类型=派生指标 ,例如:stay_time_7d_APP,最近7天(1周)停留时间
3.4维度表设计
3.5事实表设计
3.6模型落地步骤:ODS数据同步任务正常运行
4、标签数据层建设(TDW)——数据价值魅力所在
4.1相关概念
-
最终产物:标签融合表
-
对象
-
对象标识
-
标签
-
标签类目
-
属性标签
-
统计标签
-
对象标识
-
算法标签
4.2确定对象
4.3对象ID打通
-
用户多个ID-ID之间两两映射关联打通,例如:身份证号码——电话号码映射关联
4.3标签类目设计
-
人:个人、集团、机构等
-
物:单个物品、物品集合等
-
关系:单条关系记录、关系集合体等
4.5标签设计
-
属性+指标+参数+特征
-
数据情况+业务需求
-
标签设计规则:层级逐级向下划分
4.6标签融合表设计
-
纵表:类似K-V,ID-标签名-标签值
-
横表(采用):ID-标签1-标签2-标签3-标签4……
4.7标签融合表实现步骤
5、应用数据层建设(ADS)——灵活支撑业务需求
5.1相关概念
-
按业务需求,具有灵活性,类似于数据集市,简单数据组装层
5.2应用数据表设计
-
以业务驱动建模,形成满足业务的规范
-
即席查询,大宽表形式组织
-
特定指标查询,K-V表形式组织
-
其他复杂数据结构组织
5.3应用数据表现(建设步骤)
-
调研业务,明确数据内容、格式、大小
-
盘点统一数仓层、标签数据层是否满足业务数据需求
-
组装应用层数据
-
多维自由聚合分析
-
即系查询,组装成大宽表
-
特定指标,组装成K-V结构数据
5.4应用数据场景支撑
6、中台手记(四):数据资产建设
第一步:客户标签体系
第二步:调研客户数据来源