数据清洗需要掌握什么知识（关于数据清洗那些事儿）

数据清洗需要掌握什么知识（关于数据清洗那些事儿）(1)

关注小聚,数据分析不迷路

在数据化运营过程中，海量的原始数据中存在着大量不完整、不一致、有异常的数据，严重影响到数据挖掘建模的执行效率，甚至可能导致挖掘结果的偏差，所以进行数据清洗就显得尤为重要，数据清洗完成后接着进行或者同时进行数据集成、变换、规约等一系列的处理，该过程就是数据预处理。

数据预处理是其中的重要环节，它直接决定了后续数据工作的质量和价值输出。‍

人们通常认为，数据预处理是一个非常枯燥的部分。但它就是「做好准备」和「完全没有准备」之间的差别，也是表现专业和业余之间的差别。就像为度假做好事先准备一样，如果你提前将行程细节确定好，就能够预防旅途变成一场噩梦。

数据清洗需要掌握什么知识（关于数据清洗那些事儿）(2)

数据预处理流程

首先我们知道,数据预处理的主要内容包括数据清洗、数据集成、数据变换和数据规约。

可以用这些逐步检测并优化提升数据质量，不是每次预处理都需要做这些所有步骤，视数据情况挑选若干即可。

数据清洗需要掌握什么知识（关于数据清洗那些事儿）(3)

由于在数据分析过程中主要涉及的是数据清洗,所以本文详细讲解这一部分,那么数据清洗有哪些铁则或者经验呢？小聚这里整理如下:

数据清洗需要掌握什么知识（关于数据清洗那些事儿）(4)

数据清洗

数据清洗主要是删除原始数据集中的无关数据、重复数据，平滑噪声数据，筛选掉与挖掘主题无关的数据，补足缺失值、去除异常值,纠正错误。

数据清洗需要掌握什么知识（关于数据清洗那些事儿）(5)

一.去重

数据清洗需要掌握什么知识（关于数据清洗那些事儿）(6)

不管是外部回溯数据还是在自己数据库中拉取的数据，可能由于存储逻辑等问题，会出现很多重复数据，重复数据属于冗余数据，拿到数据所要做的第一步就是检查是否有重复数据，若有，则需要进行去重处理，在python中可以使用duplicates（）函数。

数据清洗需要掌握什么知识（关于数据清洗那些事儿）(7)

二.处理异常值

数据清洗需要掌握什么知识（关于数据清洗那些事儿）(8)

异常值的定义是与均值的偏差超过两倍标准，但是在脏数据中，异常值的情况不止这一种：

1）比如一列数据你打开看全部是数字，当你把它当数值型处理，它会报错；那就得仔细查找原因，遇到比较多的情况是一列数字中夹杂了几个奇怪的字符串或者符号等元素，如果几万条数据中只有一两个这种字符，即使认真从前到后仔细查看也很难发现还浪费大量时间，效率极低。

还有一种情况比较常见，就是看起来是数字，实际上都是字符串的形式，但是以表格查看的时候是看不到字符串的引号；这两种情况可以通过查看特征类型来提前发现，在python中用type()或者dtypes()函数，两者使用对象有差别，可自行了解；

2）几种常用异常值检测方法：

3σ探测方法

3σ探测方法的思想其实就是来源于切比雪夫不等式。

对于任意ε>0，有：

当时，如果总体为一般总体的时候，统计数据与平均值的离散程度可以由其标准差反映，因此有：

一般所有数据中，至少有3/4（或75%）的数据位于平均2个标准差范围内。
所有数据中，至少有8/9（或88.9%）的数据位于平均数3个标准差范围内。
所有数据中，至少有24/25（或96%)的数据位于平均数5个标准差范围内。

所以如果我们一般是把超过三个离散值的数据称之为异常值。这个方法在实际应用中很方便的使用，但是他只有在单个属性的情况下才适用。

z-score

Z-score是一维或低维特征空中的参数异常检测方法。该技术假定数据是高斯分，异常值是分布尾部的数据点，因此远离数据的平均值。距离的远近取决于使用公式计算的归一化数点z i的设定阈值Zthr：

数据清洗需要掌握什么知识（关于数据清洗那些事儿）(9)

其中xi是一个数据点，μ是所有点xi的平均值，δ是所有点xi的标准偏。然后经过标准化处理后，异常值也进行标准化处理，其绝对值大于Zthr：

数据清洗需要掌握什么知识（关于数据清洗那些事儿）(10)

Zthr值一般设置为2.5、3.0和3.5。该技术是使用KNIME工作流中的行过滤器节点实现的。

这种异常值处理需要结合最终需求来决定怎么处理，常见的是不处理或者按缺失值的方法处理，但是在实际场景中，异常值有时候会有非常突出的表现，比如在现金贷业务中，异常值中的坏账率远高于整体坏账水平或其他区间坏账水平，这时候异常值就得保留并作为决策阈值的参考值。

IQR

观察箱型图，或者通过IQR（InterQuartile Range）计算可以得到数据分布的第一和第四分位数，异常值是位于四分位数范围之外的数据点。

这个方法真的很简单，因为只需要给数据排个序就行了，显然过于笼统，但在实际场景中，观察箱型图仍然是一个很好的探索数据分布的方法。

毕竟，所有复杂的探索，都是从最开始简单的探索一步步得来的嘛！

数据清洗需要掌握什么知识（关于数据清洗那些事儿）(11)

三.缺失值处理

数据清洗需要掌握什么知识（关于数据清洗那些事儿）(12)

数据缺失通常有两种情况：

一种是数据行记录的缺失，这通常是数据记录丢失，很难找回；
另一种是数据列值的缺失，可能由于某些原因，导致的数据不完整。

这里主要讨论数据列植的缺失情况，通常有如下4种处理思路：

丢弃

这种方法最简单明了，直接删除整行或者整列带有缺失值的记录。但是这种丢弃意味着会减少数据特征，弊端也十分明显。

如下情况，不宜直接使用丢弃的方法：

数据集总体存在大量数据记录不完整情况而且比例较大，比如超过10%，此时删除这些缺失值，就意味着会损失过多的有用信息。

带有缺失值的数据记录大量存在着明显的数据分布规律或特征，比如带有缺失值的数据记录是我们的目标标签主要集中在一类或者几类中，如果此时删除这些数据记录，将会使得对应类别的数据样本丢失大量数据，导致模型过拟合或者分类不准确。

补全

相对于丢弃而言，补全则是一种更加合理的处理方法。通过一定的方法将缺失的数据补上，从而形成完整的数据记录。

常用的补全方法有：

统计法：对于数值型数据，可以使用均值、加权平均值、中位数等方法补全；而对于分类型数据，一般会是用类别众数最多的数值补足。

模型法：更多的时候，我们会基于其他字段，将缺失字段作为目标变量进行预测，从而达到最为可能的补全值。

专家补全：对于一些专业性非常强的数据，可以通过自学业界专家，来补全缺失数据，这种方法在很多情况下也是一种非常重要的补全途径。

其他方法：例如随机法、特殊值法，多重填补法等。

数据清洗需要掌握什么知识（关于数据清洗那些事儿）(13)