致力于通过设计提高产品与项目的核心竞争力

下拉
从数据源到数据可视化的全链路解析


有时候,企业中存留的大量数据之间没有很好的连接,数据无法被很好地使用,会导致数据无法支撑企业的经营决策。这个时候,我们可以怎样解决数据使用难的问题呢?本文作者便拆解了相应案例,一起来看看作者的解决方案。



        

在传统IT架构下,产生了大量分散的数据,这些数据像烟囱一样垂直林立,彼此之间无法连接,无法很好的支撑企业的经营决策,也无法应对快速变化的前端业务。本案例引入“数据工厂”,链接数据源头和上层应用,对企业实际的生产过程进行跟踪和监控,对关键性指标进行不同维度的可视化展示和预警,让各层级管理人员,能够更加直观的了解企业现状,及时发现问题和定位问题,提高企业执行过程中的预警决策能力。

一、企业数据使用难

某客户在数字化流程建设过程中发现某些业务线操作步骤过多、耗时过长、风险较高,客户规划出近百个质效指标,期望能对质效指标数据进行全方位分析,最终通过可视化平台展现指标数据。经过现场调研,发现客户的数据存在如下问题:

1. 数据孤岛严重

客户有很多烟囱式林立的系统,系统间数据不互通,且底层数据存储架构多源、异构。

2. 数据标准不统一

客户数据繁杂,不同的业务线对指标的定义不同,且存在部门壁垒。

3. 开发资源不到位

数据生产链路长,且没有专业的技术人员应对数据开发,针对数据需求,仅用excel做基础分析,分析效率低。

4. 数据质量良莠不齐

各系统起步建设时间不同,数据落地的硬性要求不同,导致数据完整度和准确率偏低。

5. 数据不能重复利用

分析结果不共享,每次分析重新取数,不能重复使用。

二、如何解决数据使用难

由于客户既有系统繁多且孤立、数据繁杂、数据分析口径不统一、数据质量良莠不齐等原因,传统的BI系统已无法解决企业面临的数据使用难、数据质量差、不能重复使用的问题;

我们决定引入“数据工厂”,统一数据源,解决客户质效指标的落地建设,并把加工后的数据输出给可视化系统使用。

三、数据工厂

数据工厂需要有数据集成、数据治理及数据服务能力,通过数据采集能力形成统一的元数据和业务数据存储中心;在存储中心进行数据的清洗、转换后,按照业务维度对数据进行归类建模;最后通过数据服务实现对上游应用的数据开放共享。

1. 数据集成

数据集成用于将外部数据源的数据(元数据、业务数据)集成进统一存储中心,进行统一纳管,解决数据分散和数据效率问题。元数据采集任务采集源端表表名、表结构、存储位置等,并在存储中心进行标准化定义,消除后续建模等活动字段不统一问题。业务数据采集任务一般会把客户数据集成入贴源层(ODS)模型数据表中。

2. 数据建模

① 贴源层是数据建模的第一层,不做清洗、转换,异常和错误数据处理,将不同来源的数据整合到数据工厂,保证源系统和贴源层数据一致性,便于问题排查。

② 整合层用于数据的清洗、转换,异常和错误数据的处理。

③ 明细模型设计包含维度表和事实表的构建。事实表通过主/外键实现与维度表的关联。事实表的设计是为了度量业务过程,通过各种维度和度量来确定业务事实。事实表一般为业务明细数据,便于数据的聚合和多维分析,后续的指标设计都要基于事实表进行。

④ 指标设计包含原子指标、衍生指标和复合指标的构建,具体构建策略,详见文章《聊聊业务指标到技术指标的落地转化》。

⑤ 汇总事实模型围绕某一主题(维度)进行建模,包含维度属性、衍生指标和复合指标,在数仓架构中位于汇总明细层。

⑥ 数据应用层面向业务定制,给数据产品或数据分析提供结果数据或指标数据。在实际业务中,经过DWS聚合汇总统计的数据往往需要再次加工计算,才能被前端报表、分析图表或仪表盘等使用,应用层解决了汇总表数据再次计算使用的问题。

3. 模型计算

上述建模和指标设计仅仅创建了模型的计算逻辑,业务数据还沉在贴源层表,没有完成向下计算。离线计算任务用于模型的数据逻辑计算,可根据模型自动生成编排好的、可执行的数据计算任务,并通过计算任务中心进行调度配置、运行和监控,通过任务状态、拓扑图和实例日志及时判断任务运行情况。

4. 数据服务

数据开发人员根据数据规模和已知的应用场景,使用上述创建的贴源层表、维度表、事实表和汇总表,在数据服务平台快速定义数据API,完成接口的测试、上线,并注册至API市场。应用开发人员可以在API市场找到想要的API数据,发起API请求权限申请。审批通过后,数据应用就完成了数据对接,同一接口可被不同的应用调用。

四、BI分析平台

通过数据工厂的API服务或者连接到指定数据库,BI分析平台获取到表和数据,映射成逻辑表,直接对加工后的数据表做数据集管理和处理,仪表板引用这些数据集,通过拖拉拽方式制作图表,帮助用户快速分析数据并洞察业务趋势,从而实现业务的改进与优化。

本文从解决方案角度宏观描述了从数据源到数据可视化的全链路过程,并说明了数据工厂各模块实现的功能及模块间的流转,后续文章会逐步细化各模块的设计,期望能对大家有所帮助。

温馨提示:转载发布内容如有侵权,请后台联系我们会在第一时间撤销,我们希望在资源共享的同时,与您共同维护互联网的良好生态,谢谢!