企业数据集成是将不同来源的数据整合在一个数据库中的过程,即异构数据之间的同步。将不同种类,不同版本的数据库、文件、Mail等之间进行同步。由于不同的数据源定义属性时命名规则不同,存入的数据格式、取值方式、单位都会有不同。因此即便两个值代表的业务意义相同,也不代表存在数据库中的值就是相同的。因此需要数据入库前进行集成,去冗余,保证数据质量。数据集成可以认为是ETL(BI上的定义为:抽取——转换——清洗——过滤——加载);但更强调自动化过程管理。

在实现机制上,应包括常见的集成模式:Split/Merge/Route/PS等;另外还应该具备建模(元数据管理)和治理(Governace)功能。

数据集成有什么意义呢?

数据集成意义主要是实现数据中心,例如企业级SID;或者遗留系统在数据层面的集成。在建立全局SID的基础上,可以构建很多有意义的东西:例 如Portal/CMS,报表,数据搜索,挖掘等等,这些可以概括地称为BI,即商业智能。

因此,数据集成有两个层面的意义

1)操作层面

2)分析层面

数据集成的实现步骤:

1.界定数据交互的项别与内容,如:PDM系统和ERP系统之间的BOM数据;

2.指定数据交互周期,一天一次,还是一周一次;

3.选择交互方式,通过数据库,还是中间件技术来交互;

4.由ODS数据交互调度程序实现数据上载或是由外围系统自行实现数据下载,从而实现数据的集成。

数据集成是干嘛的(企业数据集成是什么呢)(1)

大数据

数据集成会出现什么问题:

1.数据重复

检查数据重复一般需要通过主要关键词,最好对主要关键词进行优化,过滤掉重复数据。在数据结构上尽量调研每个字段的含义,拆分或整合。重复数据入库,不仅会给日后的数据关联造成极大的影响,也会影响数据分析与挖掘的效果,应尽量避免。

2.数据冲突

数据冲突就是两个数据源中同样的数据,但是取值记录的不一样。造成这种情况除了有人工误入,还有可能是因为货币计量的方法不同,汇率不同,税收水平不同、评分体系不同等等原因。

对待数据冲突问题,就需要对实际的业务知识有一定的理解。同时,对数据进行调研,尽量明确造成冲突的原因。如果数据的冲突实在无法避免,就要考虑冲突数据是否要保留、是否要进行取舍,如何取舍等。

,