随着企业信息化建设的日趋完善,当今数据时代背景下更加强调数据的价值。数据是企业生产、经营、战略等几乎所有的经营活动所依赖的、不可或缺的信息,数据的重要性不言而喻。数据包括基础数据、业务数据,通过相关性分析可以将客户、用户和产品串联起来,帮助企业有效运营,用数据来指引企业的成长。
DAP数据分析平台是一款专门用于企业大数据平台构建的产品,它可以对从业务系统或者ODS中抽取来的海量数据进行高效存储、计算、分析并处理。最终将有价值的数据以可视化的形式进行展现,能够有效帮助企业清晰地分析优劣势,从而调整企业策略,加快企业的信息化发展并提高整体竞争力。
整体介绍DAP数据分析平台主要是为了满足企业数据分析的需要而开发的一款产品,不同于一般的BI平台,DAP数据分析平台更侧重数据的聚合,平台预置有数据源注册、ODS注册与管理、数仓配置与数据聚合等功能,从而实现企业业务数据的统一,构建企业统一的、标准的、完整的数据仓库,同时支持与外部系统进行数据交互。
1.产品方案
首先对DAP的数据中台方案组合框架进行介绍:
1.DAP数据分析平台:结合ESB从各系统进行数据抽取、加工、转换,并汇聚存储到数仓中,构建企业的大数据中心。基于数仓通过图形化、拖拽式配置构建分析主题,实现快速、精准分析,支持领导层的决策。
2.MDM主数据管理平台:对企业中的主数据进行集中管理,统一进行清洗、校验和丰富,建立统一、标准、完整的主数据体系,并为其他系统提供标准的主数据,同时为DAP提供基础数据支持;
3.ESB企业服务总线:从各个系统抽取主数据并同步至MDM平台,支持主数据校验、清洗和汇聚,并配合MDM平台进行主数据分发; 配合DAP平台建立业务数据同步流程,支持数据仓库的建设;
2.产品说明
数据分析平台是一款能够高效存储、计算、分析并处理海量数据的数据分析产品,能够真实、准确、清晰、有效地将企事业内部及行业外部相关数据进行可视化展现,帮助企事业提升行业洞察力,加强决策力,从而提升整体竞争力。
数据分析平台功能有:
1.数据来源(应用系统定义、数据源头配置、ODS数据定义)数仓模型。
2.数仓模型(业务主题、维度配置、事实配置、模型配置、指标管理)。
3.数据调度(规则校验、调度资源(同步资源、加工资源)、调度任务、调度日志(同步日志、加工日志)、质量日志、通知日志)。
4.分析模型(数据集配置、立方体配置、业务类报表、多维度分析)。
5.展现模型(导航管理、组件管理、展现主题、装饰管理)。
6.数据服务(接收服务、查询服务、统计服务、指标服务、业务服务)
7.数据标签(标签配置、标签定义、标签画像)。
8.统计分析(数据地图、质量分析、血缘分析、影响分析)。
9.系统管理(组织管理、角色管理、人员管理、功能管理、编码类型、编码管理、系统日志)。
3.功能介绍
DAP采用仓湖一体的方式,把业务系统数据治理整合到DAP中,所以为了确保数据准确性和实时性,ODS和数仓中的数据支持版本批次的概念。
下面是DAP数据版本运行机制。
DAP数据版本化采用的拉链表方式。
1.只有维度表创建时候,才能新增start_date和end_date字段。
2.是否版本,如果是可以生成临时表,支持选择对比字段。
3.最开始初始化start_date,state_date默认值(1900-01-01),end_date结束时间默认(9999-99-99)。
4.在插入数据时候会生成临时表DIM_表_tmp0,每次先清空临时表数据,再通过临时表和实体表进行全字段对比:
①如果不存在就插入数据,开始时间、当前时间、结束时间为9999-99-99。
②如果存在就将存在的结束时间更新为当前时间,再插入一条新数据,使开始时间为当前时间等于前面结束时间,结束时间也是9999-99-99。
③如果当前又同步一遍这个数据,就只更新结束时间为当前时间。
扩展介绍DAP中数仓是需要校对数据版本的,这样才能保证数据准确性,实时性,才能保证数据查询出来是准确完整的,这样数据应用才能发挥价值。
1.场景介绍
以下是根据数据版本批次查询数据场景介绍:
通过数据库真实表和临时表全字段对比:
1.如果不存在就插入数据,开始时间当前时间、结束时间为9999-99-99。
2.如果存在就将存在的结束时间更新为当前时间,再插入一条新数据开始时间为当前时间等于前面结束时间,结束时间也是当前时间。
3.如果当前又同步一遍这个数据,就只更新结束时间为当前时间。
查询一个时间(2022-04-19 22:25:00)数据如下图所示:
查询某天数据:
按照时间段查询,并且没有时间戳字段,所以以开始时间start_date 和结束时间end_date作为时间字段判断。
2.维度扩展
维表扩展支持设置开始时间字段、结束时间字段,因为有可能原表里有这2个字段,版本支持类型(支持、不支持)。维度查询机制都要加上如下2个查询条件:start_date < 结束时间 and end_date > 开始时间,接收时间='9999-12-31' or 状态字段='对应的归档值' 有可等是多个状态字段。
3.事实扩展
事实表根据类型判断基础事实表还是汇总事实表。如果基础事实表支持扩展设置开始时间字段、结束时间字段,扩展版本支持类型(支持、不支持)。如果支持版本基础事实表查询机制都要加上如下2个查询条件:start_date < 结束时间 and end_date > 开始时间,从而在可视化展现和数据服务中应用。
维度扩展
数据版本主要是在维度表获取数据引擎扩展拉链数据机制,只要把此表数据进行处理就可以保证数据的实时性了。
1.功能介绍
维度主要是来源于主数据管理平台,主数据平台负责维度的统一以及各组织、项目等维度之间的映射等。在数据分析平台可以使用导入的方式将主数据管理平台表的字段进行导入,形成对应的维度表,为后续数据模型的关联打下基础。
而主数据的数据是有版本的,所以是维度表数据也需要做版本处理。通过一个时间类型字段作为时间戳,在数据调度查询的时候可以通过这个时间戳字段进行过滤查询。
2.功能配置
维度表配置:
1.列表页面:维度表进行增删改查操作:
2.编辑页面:添加是否版本字段:
3.选择表后进行导入字段,添加字段只能选择来源表的字段或者自己手动添加,选择“是”版本,在字段信息中出现是否比较字段,支持多选,然后点击创建表,就可以和实体表与对应字段的临时表一起产生。
3.功能展示
通过上述的配置,在ESB流程同步时候进行数据查询。流程查询时候通过数据start_date < 结束时间 and end_date > 开始时间进行查询。
根据时间查询出来如下:
事实扩展
事实扩展主要也是获取数据版本在数据引擎扩展拉链数据机制,只要将此表数据进行处理,就可以保证数据的实时性。
1.功能介绍
事实扩展主要是基础事实表扩展,因为汇总事实主要来源是基础事实和维度表,所以无需再扩展,所以只需要在扩展基础事实表时,扩展一个选择时间类型字段作为数据版本时间戳即可,原理和维度表相同。
2.功能配置
1.列表页面:对维度表进行增删改查操作,左侧是:
2.编辑页面添加“是否”数据版本字段:
基础事实表选择表后导入字段,添加字段只能选择来源表的字段或者自己手动添加,选择“是”版本,在字段信息中出现是否比较字段,支持多选,然后点击创建表,就可以和实体表与对应字段的临时表一起产生。
3.功能展示
ESB流程查询时候通过数据start_date < 结束时间 and end_date > 开始进行时间查询。
根据时间查询出来结果如下:
功能应用
通过上述数据版本校对可以保证企业数仓的数据的事实性。通过下面的看板、报表展现、数据服务事实更新企业发展情况,使企业人员了解公司动态,从而提升企业数据价值。
1.组件应用
组件应用扩展组件查询中相关引擎查询能起到如下作用:通过数据版本查询最新的数据,实现实时更新图表展现数据,使展现的数据更加具有权威性。
1.可视化图表刷新,通过数据版本拉群增量数据,实现实时更新下面的看板信息:
大屏亦如此。通过数据拉链的方式更新每个图表对应的数仓数据。
2.报表应用
1.业务报表:通过业务报表选择数据集数据,配置出多表头表格,也是通过条件查询,默认时间戳字段进行查询。根据时间戳进行数据预览:
2.多维分析:多维分析是通过立方体进行配置多维度多表头的表格,本次扩展应用是通过默认时间戳条件来实现不同数据版本的数据查询。
根据时间戳进行查询数据:
3.服务应用
1.查询服务:通过数据集中配置后,点击发布,就能开放数据接口,通过数据版本查询变化的的据,所以默认添加时间戳字段条件。
2.统计服务:通过数据版本查询变化的的数据,所以默认添加时间戳字段条件。
3.业务服务:数据查询时候默认添加时间戳查询。
4.指标服务:数据查询时候默认添加时间戳查询。
心得总结
数据分析的目的是把隐藏在一大批看来杂乱无章的数据中将有价值的信息提炼出来,从而找出所研究对象的内在规律。在实际应用中,数据分析可在人们做决策时提供信息支持,以便采取适当行动。数据分析是有组织有目的地收集数据、分析数据,使之成为信息的过程。
1.产品作用
数据分析必须要以数据为先,对收集来的数据进行分析,以求将数据价值做大化,充分发挥数据的作用。而数据分析平台就大大强化了数据治理的作用,所以数据版本会保证数据的准确性和实时性,加强数据可用性。数据服务、数据可视化展现等功能都是提升企业数据价值的重要工具。
2.产品应用
数据中台集成业务系统数据,一般情况下展现层的数据不是系统本身的数据,是不可能再去业务系统抽取的。因为业务系统数据已经到数据中台中,而且是治理后的标准数据,所以应用从数据中台中的数仓中获取,而获取的途径就是DAP数据服务。
而数据应用的另一种是可视化展现。通过数据可视化,业务组织可以提高他们在需要时查找所需信息的能力,并且比其他公司更高效地完成这些工作。通过数据可视化,业务组织可以提高信息查询、整合的能力,以便更高效地完成工作。
3.产品发展
DAP数据平台是构成数据中台的核心产品。它可以提升企业的业务数据价值。从数据来源梳理企业的业务数据,把需要提升企业业务价值的相关表单放到中间库中,通过数据治理整合汇总这些数据,把这些数据变成完整、可观察的数据,从而将数据展现出来。
在数据中台项目中难点和重点是各个业务系统的数据采集,并进行校验、治理、整合、汇总,把数据变成完整的、可观察的数据,从而建立一个标准、可持续应用的数仓,而DAP产品可以让这个过程自动化实现,这样也为后续SaaS应用合作的模式升级奠定坚实基础。
本文由@数通畅联原创,欢迎转发,仅供学习交流使用,引用请注明出处!谢谢~
,