摘要: 自从阿法狗战胜人类顶级棋手之后,深度学习、人工智能变得再一次火热起来,但有一个基本的误解是更大的数据会产生更好的机器学习结果。然而,更大的数据池/仓库并不一定有助于模型学习到更深刻的见解。正确的答案是?

大数据big data(从大数据bigdata)(1)

自从阿法狗战胜人类顶级棋手之后,深度学习、人工智能变得再一次火热起来。有些人认为,深度学习的再一次兴起是源于硬件的提升、数据量的增多以及高效算法的研究。这并不完全精确,有一个基本的误解是更大的数据会产生更好的机器学习结果。然而,更大的数据池/仓库并不一定有助于模型学习到更深刻的见解。正确的答案是,要把重心专注于数据的质量、价值以及多样性,而不仅仅是数据的规模——“深度数据”(deep data)比大数据(big data)好。

随着研究的进行,人们对大数据的炒作逐渐在减弱。云计算、Hadoop及其变种已经能够解决一些大数据的问题。但是“大数据”是指许多人仍在花费大量资金建设更大的基础设施来处理、保存和管理的庞大数据库。这种盲目追求“大”的做法,在基础设施和人力资源方面产生了巨大的、且本可避免的成本。

目前,越来越多的声音讨论是否从“大数据”转向为“深度数据”了,我们现在需要更加的明智和思考全面,而不是收集所有可能的数据来实现“大数据”。我们现在需要让一些数据落实到位,并寻求数量和质量的多样性,这将给我们带来许多长期的收益。

被神话的大数据

要理解从“大”到“深”的这种转变,让我们首先看一下我们对大数据的一些错误观念:

以下是现实:

相信这些神话的问题在于,我们将以一种在纸上或长期看来都很好的方式构建信息系统,但在即时时间框架内过于繁琐,无法发挥作用。

大数据的四个问题

以下是在数据方面盲目相信“越多越好”时存在的四个问题:

能做得更好的四件事

以下是我们可以采取的一些措施来对抗大数据的“黑暗面”,并将大数据思维转向深度数据思维:

变得更好的四件事

如果我们转换思路,专注于深度数据而不仅仅是大数据,这样将享受到以下这些好处:

大数据和支持它的技术突破极大地促进了许多公司在决策过程中成为数据驱动的动力。随着人工智能的兴起以及处理这些强大资源的能力,现在需要更加精确地根据我们的数据需求建立一种理解深度数据的思维,而不仅仅是大数据。

作者信息

Stephen Smith,数据科学

本文由阿里云云栖社区组织翻译。

文章原标题《4 Myths of Big Data and 4 Ways to Improve with Deep Data》,译者:海棠,审校:Uncle_LLD。

,