导读:人们认为“数据”一词自16世纪伊始便已被定义和使用了。随着计算机技术的进步,数据一词变得越发流行。然而,数据不仅限于计算机科学和电子学领域,各个领域的应用在某种程度上使用并产生了数据。
各种数据源每天都产生大量的数据。这些数据源包括每日的交易数据,由传感器产生的数据,由上网产生的并存储在服务器上的数据,由用户产生的数据以及提供给用户的数据等。换言之,数据随处可见。在这些数据源中,网络数据源是最大的。
如果通过适当的技术使这些数据变得有用,那么这将为问题求解和决策制定提供很大的帮助。
作者:拉金德拉·阿卡拉卡(Rajendra Akerkar)
如需转载请联系华章科技
01 什么是数据?
数据是来自某个领域的原始观测值。原始数据是一组事实的集合,比如数字、单词、测量值,或者事物的文本说明。单词“数据”(data)来自于拉丁文“datum”,其含义为给定的事物。
数据是无处不在的,亦是事物测量仪器化的重要单位。所有的实体直接或间接地与事务相关,如商业中的客户、商业业务的组成部分,以及处理业务的外部实体,这些实体产生了大量的数据。
数据通常被看作是为了参考或分析而收集在一起的事实、统计资料和观测值。数据为推理和计算提供了基础。
数据既可以是定性的,也可以是定量的。定性数据的例子如人们描述一辆车多豪华,或者香水的味道(多么好闻的味道!)。
定量数据的例子如描述一辆车有4个轮子。后者关于车的例子描述了可数的物品,因此其本质是离散的。另一方面,“我的体重是150磅”是一个连续的定量数据的例子。树的高度、比赛花费的时间以及人的身高等也是连续的定量数据的例子。
02 数据科学
数据科学对不同的数据源进行系统地研究和分析,理解数据的含义,并运用数据作为工具实现有效的决策制定和问题求解。从这些数据中获取知识有助于组织机构在成本、交付和生产力方面更高效,确定新的机遇,并建立强大的品牌形象。
数据科学的目的是促进与数据相关的各种流程的应用,例如数据获取、清洗噪声的数据预处理、数据表示、数据评估、数据分析,以及数据创建相关知识的运用。数据科学在新方法分享、优化地管理和分析数据方面做出了贡献。
数据科学的目标是发现知识,这些知识有助于在个人、组织机构以及全球层面上进行决策。除了识别、收集、表示、评估以及利用数据来发现知识,数据科学亦促进了数据的有效运用,有助于在计算开销、质量和准确性方面进行优化。
可以想到,数据科学领域最终出现的机会便是大数据—通过分析由网络日志、传感器系统、事务数据生成的大数据,能够产生有效的洞察力并派生新数据产品。
03 现代商业中数据科学的重要性
尽管数据被称作新商业时代的货币,但是仅拥有数据是不够的。为了达到更好且有效地利用数据的目的,我们必须以适当的方式处理和分析数据来获取对某一特定领域的深入洞察力。特别地,当数据来自多个数据源时,这些数据不具有特定的格式,并且还伴有很多的噪声,那么就必须对这些数据进行清洗、整理、分析和建模。
数据科学在商业的各个方面都具有其适用性。各个业务活动都会产生大量的数据。拥有如此大量的数据应该是一种理想的状态;相反,这些数据会因其量大、无构造性和冗余性的特点而产生大量的问题。
很多研究者将一些参数如容量、速度以及多样性视为处理数据的主要障碍。根据Eric Horvitz、Tom Mitchell(2010)以及James Manyika 等人(2011)的研究,适当地分析和使用上述大数据可以提供解决问题的机会,加速经济增长并提高生活质量。
由于我们对适当地使用和理解这些数据的局限,该数据没能促进生活质量反而使我们的生活变得悲催,这真是一种讽刺。很多研究者和创新贡献者给出了处理大数据的有用的模型和技术,然而我们仍需要一种全面且聚焦的方法。
在Thomas H. Davenport、Don Cohen和Al Jacobson(2005)给出的调查中,一些数据科学的践行公司确认了一些关键的特性和参数。这项调查包含了32家在不同领域成功践行数据科学的公司,这些公司基于数据科学和分析获得了竞争优势。
根据上述研究,这些公司给出了以下的主要观测情况:
- 有不止一种类型的数据科学家和专家以增长业务为目的对数据进行分析,并从事与数据科学相关的工作。
- 不仅是统计数据,还有深度数据分析、建模和可视化技术也用于与业务相关的决策。
- 数据科学活动不仅限于小部分商业业务,也可应用于多种业务活动中。
- 公司策略倾向于使用数据分析和数据科学活动。
很多公司被数据科学的应用所吸引,并将其用于改进业务活动;然而他们并不了解这些数据科学活动怎样规划以及如何修正经营策略。
第一个需求便是技术娴熟的数据科学家和专家,这些专业人士能够设想到可能的组织效益和技术收益。为了实现与数据科学相关的活动,预想到对资源和基础设施的需求是十分必要的。鉴别可能的数据源和访问权限以及获取数据所需要的方法也是十分必要的。
专家也能够提供关于其他领域的专家、工具和模型的可用性指导,有助于进行数据处理。预先估计数据科学活动中的活动规划,领域专家能够识别将会遇到的困难。一旦选定了数据科学家或者专家,活动规划的下一步便是确认迈向目标将要面临的困难。
第二步即是学习并确立数据科学技术。统计学方法、建模、程序设计、可视化、机器学习以及数据挖掘等技术对于进行数据科学活动都是必不可少的。
第三步是活动导向步骤。在局部层面上移除已确定的不利因素,并给出纠正措施。应用数据科学的主要困难是数据的可用性、数据的收集以及为获取充分意义而对已获取数据进行的组织。另外,需要确定适用于数据收集的模型。因此,需要针对特定应用来设计模型或技术。
第四步便是利用已收集的数据和挑选出的方案实现数据科学活动。收集的数据必须是干净的、分析过的,还要用适合的模型处理并以良好的方式呈现给用户。
在这一阶段中,为了高效地实现模型可以对挑选出的方案进行较小的变动。上述活动如图1-1所示。
▲图1-1 数据科学活动的大致阶段
由于上述数据科学活动是一个早期版本,因此这些活动通常在局部层面上执行,或者局限于给定的场景中。如果得到的结果看起来是有希望的,并且与商业目标一致,那么便以扩展的形式在组织层面上设计类似的数据科学活动,并对其进行实验。随后,为取得竞争优势,数据科学活动是以一种综合的方式来进行的。
04 数据科学家数据科学家是数据获取、数据清洗、数据表示和数据分析中的关键人物。他(数据科学家)精心地策划各种各样的商业活动,协调各业务部门并管理业务的生命周期。
为了进行上述工作,数据科学家必须具有多领域的知识和多方面的能力。除此之外,数据科学家还必须具备同时进行多个项目的能力。最理想的是,他应具有分析、机器学习、数据挖掘和统计数据处理等多方面能力,具备一点计算机程序设计能力也是可取的。
依赖于公司(organization)的性质、规模以及业务范围,数据科学家的工作将发生变化。他工作于以数据处理为主要业务的公司。在这种情况下,对数据科学家而言机器学习和统计数据处理是十分重要的技能。
一些公司在某些阶段需要通过高效的基础设施处理大量数据。在此情况下,数据科学家有助于构建数据基础设施和其他资源(包括人力资源)。数据科学家期望在软件工程方面具有入门背景知识。
一些公司不是数据驱动的,也不必处理和分析数据,但是这些公司拥有适量的数据。从这些数据中发现知识十分有助于公司的业务活动。多数情况是,大公司都属于这一类。在这种情况下,除了基本的技能,数据科学家应展现出数据可视化的能力。表1-1给出了数据科学家必备的基本技能。
换言之,数据科学家在业务分析、统计学和计算机科学领域是个多面手,精通架构健壮性、实验设计、算法复杂度、仪表数据和数据可视化等领域。数据科学家在数据科学中首屈一指,具备对内部和外部数据进行结合的权限,以给出能够提高商业决策能力的洞察力。
▲表1-1 数据科学家的重要技能
①http://www.r-project.org/
②https://www.python.org/
③http://dygraphs.com/
本文摘编自《大数据分析与算法》,经出版方授权发布。
延伸阅读《大数据分析与算法》
推荐语:本书系统介绍如何用主流智能技术实现大数据分析。详细介绍了数据科学领域的相关智能技术,包括数据分析、基本学习算法、模糊逻辑、人工神经网络、基因算法和进化计算、使用R语言进行大数据分析等。
,