数据分析与数据挖掘的区别（数据采集与数据挖掘是什么）

数据分析与数据挖掘的区别（数据采集与数据挖掘是什么）(1)

自从“大数据”一词走红以来，与数据相关的一切都如雨后春笋般涌现。 Web抓取， Web采集， Web挖掘， 数据分析， 数据挖掘 等。有些词在某些时候可以互换，这使得理解起来更加困难。在竞争激烈的营销行业，深刻全面理解这些术语将有益于业务提升。

什么是数据采集？

数据采集意味着从在线资源中获取数据和信息。它通常可以与Web抓取，Web爬取和数据提取互换。采集是一个农业术语：从田地中采集成熟的农作物，具有采集和搬迁行为。数据采集是从目标网站提取有价值的数据，并将其以结构化格式放入数据库的过程。

要进行数据采集，需要有一个自动搜寻器来解析目标网站，捕获有价值的信息，提取数据并最终导出为结构化格式以进行进一步分析。因此，数据采集不涉及算法，机器学习或统计。相反，它依靠诸如Python，R，Java之类的计算机程序来起作用。

有许多数据提取工具和服务提供商提供数据采集工具和服务。Octoparse是一款好用的Web抓取工具。无论您是初学者还是经验丰富的程序员，Octoparse都是采集网页数据的最佳选择。

什么是数据挖掘？

数据挖掘通常被误解为获取数据的过程。尽管两者都涉及提取和获取的行为，但采集集数据和挖掘数据之间还是存在实质性差异。数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化等技术，高度自动化地分析企业的数据，作出归纳性的推理，从中挖掘出潜在的模式，帮助决策者调整市场策略，减少风险，作出正确的决策。

著名的Cambridge Analytica丑闻，他们收集了超过6,000万个Facebook用户信息并分析，圈出了“不确定投票意向的人”。然后，Cambridge Analytica采用“ 心理定向 ”策略，用煽动性信息重点轰炸这些人，以改变他们的选票。它是数据挖掘的典型但有害的应用。数据挖掘发现他们是谁，他们做什么，从而辅助做出正确决策，实现目标。

数据分析与数据挖掘的区别（数据采集与数据挖掘是什么）(2)

数据挖掘有以下几个关键点。

1、分类。

从数据集中提取描述数据类的一个函数或模型（也常称为分类器），并把数据集中的每个对象归结到某个已知的对象类中，进而预测未来数据的归类。

分类目前在商业中应用十分广泛，例如银行的信用卡信用评分模型。利用数据挖掘技术，可以建立信用卡申请者的信用评分模型，有效评估信用卡申请人信用，降低坏账风险，保证信用卡业务利润。数据挖掘是怎么做的呢？搜集大量的客户背景、行为和信用的数据，计算年龄、收入、职业、教育水平等不同属性对信用的影响权重，从而建立科学的、评估客户信用的数学模型。基于这样的模型，银行可以有效甄别“好客户”和“坏客户”。也就是说，从你递交信用卡申请的那一刻起，银行就能做出决策：是否发卡，发多少额度等。

2、聚类

与分类技术不同。在机器学习中，聚类是一种无指导学习。也就是说，聚类是在预先不知道欲划分类的情况下，根据信息相似度原则进行信息聚类的一种方法。

例如，亚马逊根据每个商品的描述，标签，功能将相似的产品分组在一起，以使客户更容易识别。

3、回归

回归用于对数值型的、连续变量进行预测和建模。

例如，预测明天的气温是多少度，这是一个回归任务；预测明天是阴、晴还是雨，就是一个分类任务。回归在商业中的应用主包括房价预测、股票走势或测试成绩等。

4、异常检测

检测异常行为的过程，也称为异常值。常见的原因是：数据来源于不同的类、自然变异、数据测量或收集误差等。

银行采用这种方法来检测不属于您正常交易活动的异常交易。

5、联想学习

联想学习回答了“一个功能的价值与另一个功能的价值如何相关”的问题。

例如，在杂货店中，购买苏打水的人更有可能一起购买品客薯片。市场篮子分析是关联规则的流行应用。它可以帮助零售商确定消费产品的关系。