备考高级系统分析师-数据库安全-分布式数据库-数据仓库-反规范化备考高级系统分析师-数据库安全-分布式数据库-数据仓库-反规范化

继续肝吧，本章主要讲的数据库安全，分布式数据库，数据仓库技术，反规范化技术，大数据，概念性的东西比较多。

1.数据库安全

考的不多，了解下补充自己的知识。

备考高级系统分析师-数据库安全-分布式数据库-数据仓库-反规范化备考高级系统分析师-数据库安全-分布式数据库-数据仓库-反规范化(1)

静态转储：即冷备份，指在转储期间不允许对数据库进行任何存取、修改操作；优点是非常快速的备份方法、容易归档（直接物理复制操作）；

缺点是只能提供到某一时间点上的恢复，不能做其他工作，不能按表或按用户恢复。

动态转储：即热备份，在转储期间允许对数据库进行存取、修改操作，因此，转储和用户事务可并发执行；

优点是可在表空间或数据库文件级备份，数据库扔可使用，可达到秒级恢复；

缺点是不能出错，否则后果严重，若热备份不成功，所得结果几乎全部无效。

完全备份：备份所有数据。

差量备份：仅备份上一次完全备份之后变化的数据。

增量备份：备份上一次备份之后变化的数据。

日志文件：在事务处理过程中，DBMS把事务开始、事务结束以及对数据库的插入、删除和修改的每一次操作写入日志文件。一旦发生故障，DBMS的恢复子系统利用日志文件撤销事务对数据库的改变，回退到事务的初始状态。

差量备份跟增量备份的区别是，差量备份是备份上一次完全备份之后变化的数据，（主要是这个上一次完全备份！）

2.分布式数据库

分布式也有自己的三级模式两级映像！内模式分为了：分片模式和分布模式。

备考高级系统分析师-数据库安全-分布式数据库-数据仓库-反规范化备考高级系统分析师-数据库安全-分布式数据库-数据仓库-反规范化(2)

局部数据库位于不同的物理位置，使用一个全局DBMS将所有局部数据库联网管理，这就是分布式数据库。

分片模式

水平分片：将表中水平的记录分别存放在不同的地方。

垂直分片：将表中的垂直的列值分别存放在不同的地方。

分布透明性

分片透明性：用户或应用程序不需要知道逻辑上访问的表具体是如何分块存储的。

位置透明性：应用程序不关心数据存储物理位置的改变。

逻辑透明性：用户或应用程序无需知道局部使用的是哪种数据模型。

复制透明性：用户或应用程序不关心复制的数据从何而来。

3.数据仓库技术

数据仓库是一个面向主题的、集成的、非易失的、且随时间变化的数据集合，用于支持管理决策。

面向主题：按照一定的主题域进行组织的。

集成的：数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的，必须消除源数据中的不一致性，以保证数据仓库内的信息是关于整个企业的一致的全局信息。

相对稳定的：数据仓库的数据主要供企业决策分析之用，所涉及的数据操作主要是数据查询，一旦某个数据进入数据仓库以后，一般情况下将被长期保留，也就是数据仓库中一般有大量的查询操作，但修改和删除操作很少，通常只需要定期的加载、刷新。

反映历史变化：数据仓库中的数据通常包含历史信息，系统记录了企业从过去某一时点（如开始应用数据仓库的时点）到目前的各个阶段的信息，通过这些信息，可以对企业的发展历程和未来趋势做出定量分析和预测。

数据仓库的结构通常包含四个层次，如下图所示：

备考高级系统分析师-数据库安全-分布式数据库-数据仓库-反规范化备考高级系统分析师-数据库安全-分布式数据库-数据仓库-反规范化(3)

1.数据源：是数据仓库系统的基础，是整个系统的数据源泉。

2.数据的存储与管理：是整个数据仓库系统的核心。

3.OLAP(联机分析处理）服务器：对分析需要的数据进行有效集成，按多维模型组织，以便进行多角度、多层次的分析，并发现趋势。

4.前端工具：主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具。

BI系统主要包括数据预处理、建立数据仓库、数据分析和数据展现四个主要阶段。

数据预处理是整合企业原始数据的第一步，它包括数据的抽取（Extraction)、转换（Transformation)和加载（Load)三个过程（ETL过程）；

建立数据仓库则是处理海量数据的基础；

数据分析是体现系统智能的关键，一段采用联机分析处理（OLAP)和数据挖掘两大技术。联机分析处理不仅进行数据汇总／聚集，同时还提供切片、切块、下钻、上卷和旋转等数据分析功能，用户可以方便地对海量数据进行多维分析。数据挖掘的目标则是挖掘数据背后隐藏的知识，通过关联分析、聚类和分类等方法建立分析模型，预测企业未来发展趋势和将要面临的问题；

在海量数据和分析手段增多的情况下，数据展现则主要保障系统分析结果的可视化。

4.反规范化技术

反规范化技术：规范化设计后，数据库设计者希望牺牲部分规范化来提高性能。

采用反规范化技术的益处：降低连接操作的需求、降低外码和索引的数目，还可能减少表的数目，能够提高查询效率。

可能带来的问题：数据的重复存储，浪费了磁盘空间；可能出现数据的完整性问题，为了保障数据的一致性，增加了数据维护的复杂性，会降低修改速度。

具体方法：

（1)增加冗余列：在多个表中保留相同的列，通过增加数据冗余减少或避免查询时的连接操作。

（2)增加派生列：在表中增加可以由本表或其它表中数据计算生成的列，减少查询时的连接操作并避免计算或使用集合函数。

（3)重新组表：如果许多用户需要查看两个表连接出来的结果数据，则把这两个表重新组成一个表来减少连接而提高性能。

（4)水平分割表：根据一列或多列数据的值，把数据放到多个独立的表中，主要用于表数据规模很大、表中数据相对独立或数据需要存放到多个介质上时使用。

（5)垂直分割表：对表进行分割，将键与部分列放到一个表中，主键与其它列放到另一个表中，在查询时减少1/0次数。

5.大数据