4月3-6日,DAMA-CDMP数据管理专家认证全球在线直播课程已经结束啦!4天课程,你将学到数据管理知识体系的整体框架及各领域知识内容;关键是数据管理各领域中的重点、难点及实践;系统化、体系化、结构化的数据管理问题辨析、思考和分析能力,以及数据管理解决方案设计、执行能力!
在我们这学习CDMP,以上都是基本的学习保障。除此以外,你还能跟着老师扩展知识面!
虽然上面那些资料,我没办法外传。但是我可以为大家分享一些老师的上课笔记,供大家学习,进一步了解数据管理
今天为大家介绍DAMA数据管理CDMP认证课堂笔记(1)数据治理(Date warehouse)
Data warehouse (DW)
定位:
Relational database 也是一种数据库 传统的还是关系型的
-separate analysis workload
特征:
information repository (integrated集成的, validated校验过的)
Historical perspective - trends analysis 趋势分析 - decision making 决策
DW specialist 数据仓库技术专家:
1, 数据仓库基本组件?
Source - Data Staging Area - Target
数据源
operational data store
(Raw data)
(Normalized)
Presentation
Data mart数据集市
2,建模
Star schema
中心的一张表 - fact data 事实数据
Multiple dimensional tables radiating out from it
围绕
dimension data 维度数据
Customer Location
Sales
Supplier Product
Facts Dimensions 集成在一起的
使用surrogate keys 代理商
Savings
customer
Current Loans
Account
集成的效果 data consistency, data redundancy
其它特点:
Nonvolatile 稳定
Operational 数据源 ————— load ———— — DW
Insert Read Read
Update
Delete
Time-variant 数据的存储是跨越一个时间段
开展一个DW设计和实施项目,四步方法论?
IBM习惯:
1, Business model - 战略分析 业务架构、业务流程 识别业务维度
2, Logical model - 3NF逻辑建模
3, Dimensional model
4, Physical model
数据维度
hierarchies of a dimension 维度的层次
Region
Sub-region
country
State
City
Customer
CREATE DIMENSION statement
Large dimensions
Very deep / very large number of rows
Customer
20 million rows
150 dimension attributes
很多层次
Slowly changing dimensions
Rapid changing dimensions
Junk dimensions 垃圾维度
不包含real value
Facts
- numerical measures of business performance 数字
大量的数据 many rows
raise quickly in size
Additive - added across all dimensions
Ask a business question?
How to answer?
Fact table all dimensions
一部分不是全部dimensions (Semiadditive)
完全不使用 Nonadditive
Factless fact table
Doesn not consist numeric additive values
But
It compose exclusively of keys
DQ数据质量两种经典模型
Kimball & Inmon
,