数据清洗和处理区别(什么是数据清理)(1)

数据清理(有时也称为数据清理或数据争吵)是数据分析过程中重要的早期步骤。这个关键的练习,包括准备和验证数据,通常在您的核心分析之前进行。数据清理不仅仅是删除错误的数据,尽管这通常是它的一部分。大部分工作都是在检测非法数据并(在可能的情况下)纠正它。

“流氓数据”包括不完整、不准确、不相关、损坏或格式不正确的数据。这个过程还包括重复数据删除(deduping)。这实际上意味着合并或删除相同的数据点。

但是为什么CPDA数据分析师要纠正这类错误如此重要呢?

答案很简单:如果您不这样做,它们将影响您的分析结果。由于数据分析通常用于为业务决策提供信息,因此结果需要准确。在这种情况下,删除流氓数据或不完整数据似乎更安全。但这也会带来问题:不完整的数据集也会影响分析结果。这就是为什么数据清理的主要目标之一是尽可能地保持数据集的完整性。这有助于提高您见解的可靠性。

数据清理不仅对数据分析很重要。它对一般业务管理(或“数据治理”)也很重要。大数据的来源是动态的,不断变化的。因此,定期维护数据库可以帮助您掌握全局。

,