随着云计算、物联网、移动互联网的广泛应用,人类社会真正进入了大数据时代。通过大数据的运用,我们对人类社会获得了更为广泛和深入的认知,进而通过更为客观和精确的方法,对人类社会进行更加科学和有效的探索和研究。大数据对当前社会科学研究产生了深刻的影响,使社会科学研究的视野和领域发生了革命性的变化。

尽管大数据这一概念提出很早,但从为社会科学界熟知,到迅速转向反思与批判,却仅仅经历了短短几年的时间。为什么社会科学研究能够迅速对大数据做出响应?大数据在社会科学研究中有哪些应用?大数据应用于社会科学研究体现出哪一些价值?而它在应用中又有哪些悖论使其不能解决社会科学研究所面临的问题?本文试对以上问题进行分析。

一、社会科学为何对大数据迅速响应

社会科学研究对大数据的快速响应主要包含了两个层面的问题:一是从普遍意义上讲,大数据为本身具有数据需求与实证传统的社会学科研究提供了更为丰富的数据基础;二是从特殊意义上讲,大数据为社会科学的各个研究领域带来了新的视野和新的研究方法,提供了更为广阔的跨学科、跨领域研究的可能。

(一)从普遍意义上讲,社会科学研究在研究对象、研究方法、文献资料、技术支撑等方面需要大数据的迅速融入

社会科学研究很重要的一点是需要数据基础,而大数据无疑在这一方面具有划时代的意义,这也是社会科学研究迅速对大数据应用做出响应的基本原因。这主要基于四个方面:

一是从研究对象上讲,当前纷繁复杂的社会现象越来越具有编码数据化的倾向。随着计算机及其相关技术,如数据编码技术、传感器技术、模式识别技术以及计算机仿生学、人工智能的发展,在大数据时代,事物本身、社会关系乃至人本身的自然状态和社会活动都存在进行编码的可能,而人类信息一旦被编码,则可以通过模数转换进行数字化记录,形成计算机可以直接处理的数据信息。

二是从研究方法上讲,本身基于数理统计方法的社会科学研究亟需大数据的滋养与丰富。

三是从文献资料上讲,大数据使社会科学研究的信息获取变得迅速而便捷。基于社会科学研究对象的编码数据化趋势,可供研究的文献资料发展到了极大丰富的阶段。

四是从技术支持上讲,大数据为社会科学研究提供了亟需的技术支撑。正如美国国家科研委员会在2002年的报告中所称:“数字技术和网络的飞速发展从根本上改变和推进了数据在科学及其他各个领域中的生成、分发、管理和使用方式。”信息技术促进学术研究转变的最新发展就是大数据,它使得数据运用和计算方法成为社会科学的必需品。

(二)从特殊意义上讲,社会科学的各个研究领域需要大数据运用带来的新的视野和新的研究方法,并在跨学科、跨领域研究中有所拓展在具备前述研究基础的条件下,社会科学各研究迅速地对大数据应用做出了响应。从当前社会科学研究的大数据应用状况来看,其影响不仅波及社会学科学科及研究领域,更是由此提升了跨学科研究的质量及促进了新兴研究领域生长。

一方面,大数据促进了社会科学研究领域的新的视野和新的方法。2012年《华盛顿邮报》研发了新闻核查机器人——truthteller(吐真者),用于新闻事实的鉴别;2014年《洛杉矶时报》和美联社wordsmith公司开始使用新闻撰写机器人,直接用于新闻文本生产;《纽约时报》使用新闻编辑机器人——Blossom(花开),英国《卫报》开启总编辑机器人实验——纸媒测试计划,用以挑选新闻热点,进而生产“一张完全由算法生成的报纸”。国内应用也集中在机器人写作,如腾讯的Dreamwriter、新华社的“快笔小新”等;机器人挑选新闻,如新闻客户端以大数据算法为基础分析热点并结合用户习惯,完成新闻信息的自动选择和发布。可以说业界大数据运用的风起云涌,促使新闻学研究快速地转向大数据应用领域,以机器人新闻研究为例,2016年发表文章的数量超过之前的总和。

另一方面,大数据促使社会科学研究向跨学科、跨领域的拓展对跨学科研究以及新兴研究领域的生长起到了非常积极的作用,在传统领域里难以进一步沟通或协作的学科之间有了更好的交流与对话的平台和基础,如大数据背景下新闻传播学的跨学科发展。2015年中国人民大学喻国明教授出版了《新闻传播的大数据时代》一书,该书阐释了大数据时代的新闻内容生产、广告整合营销以及舆情信息的抓取与分析等。其中,跨新闻学、传播学、政治学、管理学等学科的舆情分析与社会治理这一研究领域,已经成为世界关注的研究热点,而正是大数据的应用——舆情信息的抓取、提炼、分析,成为这一研究领域各学科共通的基础。

大数据应用于社会科学研究的价值与悖论(大数据应用于社会科学研究的价值与悖论)(1)

二、大数据应用对于社会科学研究的价值

一般认为,大数据具有4V特征,即:3V 1V——大量(Volume)、多样(Variety)、高速(Ve-locity) 价值(Value)。这四个特征的前三者为客观性特征,来自于埃德·顿姆比尔,是需要通过各类计算机工具进行获取,并可以进行客观性描述的。而第四个特征——国际数据公司IDC(InternationalDataCorporation)后来添加的特征——价值是最重要最核心的,它也是大数据在社会科学研究中应用的最终归宿。

(一)信息获取方面,研究者可以高速地获取更为广泛的信息、拥有更为广阔的视域

传统的社会科学研究,其数据采集主要来源于田野调查和采访,但由于搜集资料方法的可操作性和调查成本等方面的制约,能够获得的数据至少在数量上非常有限。随着计算机的普及,特别是网络技术的发展,社会科学研究所获取的数据大量增加,而且各类专业数据库也能为社科研究带来必要的、专业化的数据补充,但数据的准确性和全面性依旧不尽人意。

《大数据》一书的联合作者,牛津大学互联网中心的维克托迈尔·舍恩伯格教授,曾说他最喜欢的对于大数据集合的定义是“N=所有”,因为有了整个社会和所有人的数据,所以数据不再需要以抽样的方法获得。虽然从目前大数据采集的现实情况看,舍恩伯教授的定义还是一个美好的愿望,但当前数据量的增长却是不争的事实。美国学者莫里斯·克莱因曾说“一个时代的特征在很大程度上与该时代的数学密切相关,数学随文明的兴衰而枯荣”,这句话用在当前的大数据爆炸性的增长方面最好不过了。

大数据是社会信息的集合。社科研究者、社会管理者、社会生产者之间的相互交织,大数据渗透进入了各行各业。而社科研究本身是以社会为研究对象的科学,社会的动向就是研究者开展研究工作的方向。目前,大数据广泛应用在零售、电信、金融以及教育、医疗、交通等行业,并已经创造出了巨大的经济价值,这些价值也正在转化为人类了解世界甚至于认识自身的基础信息,使社会科学的研究者拥有更为广阔的视域。

(二)问题挖掘方面,研究者对研究问题能够快速响应和深度挖掘

如前所述,大数据最核心的意义在于价值的追求,而这一追求需要在一定数据基础上进行问题挖掘才能得以实现。大数据获得应用之后,社科研究的研究过程发生了变化或是有了另外一种逆向选择。

在传统的社会科学研究中,实证研究具有自上而下的决策和有限数据验证的特征,其过程主要为:研究者通过理论探索建构研究的概念模型和结构模型,在此基础上提出假设,之后通过所设定的研究方法采用适合的搜集资料的手段采集数据,最后通过数据分析来验证假设。这一过程中,研究者本人的研究水平,包括其经验、见识以及对研究问题的认知和判断,决定了研究本身的方向和深度;被研究者也只能囿于研究者想研究的问题,而使最终的数据局限于研究者的研究范畴之内。

从目前的实际情况看,社会科学界运用大数据进行社会研究主要包括数据库的应用和互联网信息分析,另外还有其他一些如地理信息系统之类的辅助研究。

我们发现,社会科学研究和互联网企业在大数据应用方面没有本质的差异,关键是研究的问题不同,企业关注的是产品营销、品牌形象、位置服务等,而社会科学研究关注的是社会治理、信息传播、人与社会的关系等社会科学核心话题。

(三)研究方法方面,大数据使研究者的研究方法更为丰富

2009年微软公司的研究人员托尼等人共同写作了“TheFourthParadigmData-IntensiveScientificDiscovery”,他们认为,实证的、分析的、模拟的方法能够用来回答很多问题,但数据密集驱动的大数据的出现,使人类的科学研究将会被计算思维重塑,可称之为第四范式。从社会科学研究的角度来看,国内学者徐磊认为,“传统的技术条件只能使人们获得小样本、静态的个体或社会关系的数据,不得不简化社会研究对象的特征,人们更多地依赖假设、直觉和经验解释社会问题,其准确性和可信度自然大打折扣……纠结了100多年的社会科学研究方法的问题,将彻底归并到更大的复杂系统认知的问题集合中”。如香港城市大学的祝建华教授在认为大数据研究可以放弃研究模型的探寻,也无需研究的假设便可以依据数据展开研究。大陆学者何非与何克清等则认为大数据开启了科研中的“第四范式”。

在研究方法的丰富方面,大数据的价值还体现在研究者可以通过大数据对社会问题进行更为有效的前瞻与预测,超越了既有时间序列分析方法的效能。因为,大数据不再是以精确的方式定位分析某条信息、某个人的基本性质,而是在看似混杂的全面性的信息中发现趋势、预测走势。如PredictionImpact,Inc的董事长、哥伦比亚大学前计算机科学教授埃里克·西格尔博士发起成立世界预测分析大会,其在《大数据预测》中对数据效应、集团效应、机器学习、数据表达等问题进行了阐释,内容涉及公共管理、商业策略、金融风险、社交媒体等社会科学研究的领域。

从现在的应用来看,大数据预测已经在新闻传播、影视娱乐、金融投资、政策制定等方面得到了快速的应用。如影视行业中依据大数据来进行演员的选择和剧情的创作、BAT通过大数据平台预测票房等;相应地在影视产业研究中,有学者就提出通过大数据和云计算技术建构深度分析平台,能够为电影产业的发展和研究提供数据支持和科学决策方面的服务。再如美国学者托马斯·沙德福通过“搜集1990年到2013年间166个国家的报纸文章,形成大数据后进行,来分析预测是否会发生战争”。另外,在网络信息空间的内容分析方面,2010年美国和英国的三位学者合作发表了《Twitter情绪预测股市》论文,通过近1000万条推文作为样本展开网民情感研究,预测股市涨跌。

总体来看,大数据给传统社会科学研究方法带来了范式转变,但目前对大数据方法的选题依据、理论框架、研究设计、数据分析、研究伦理、信度和效度等方面的议题仍缺乏深入的研究,社会科学研究在这些议题上多援引计算机领域学者和数学家们的观点,而没有本质上的创新。

大数据应用于社会科学研究的价值与悖论(大数据应用于社会科学研究的价值与悖论)(2)

三、大数据应用于社会科学研究的悖论

毫无疑问,大数据能够提升社会科学研究的质量,但近些年的研究表明,对大数据应用于社会学科研究的价值需要有更为理性的思考,既不能否定其积极的意义,也不能夸大其作用。舍恩伯格的《大数据时代》无疑推动了当前的大数据浪潮,在作者看来,从思维的角度讲大数据具有三大特征:“一是基于总体而非样本的思维,二是拥抱混杂性而非精确性,三是着眼于相关性而非因果性”。这三点也是社会科学研究经常引用的“座右铭”,而对于这一具有革命性的论断,从当前的研究来看,已经引发了一系列的争议。我们发现在一些社会科学研究逻辑的基础性问题上,大数据存在着若干悖论。以下从舍恩伯格关于大数据思维的三个特征进行探讨。

(一)总体与样本的悖论:大数据的采集与测量中,“一切皆可量化”的理想与数据获取现实之间存在较大差距

舍恩伯格的第一个思维是关于总体与样本关系的思维,他认为大数据时代的数据一定是基于总体的。按照舍恩伯格对大数据的解释,“世界的一切关系皆可用数据来表征,一切活动都会留下数据足迹,万物皆可被数据化,世界是一个数据化的世界,世界的本质就是数据”。这一理解归结为一句话便是数据科学家们的座右铭“Ifyoucan'tmeasureit,youcan'tfixit”(唯有量化问题方能解决问题)。大数据的鼓吹者们宣称一切“皆可量化”。传统的社会科学研究不得不以扩大样本量的办法获得描述性统计的精确性,但由于抽样框的限制,最大比例的样本量也不可能与抽样总体相一致,因此传统的描述性统计所用的样本再大也具有推论的性质。在大数据时代,全样本基础上的全数据成为可能性。

于是我们发现一切皆可量化的结果,按照舍恩伯格的逻辑来讲,应该获取总体的数据。虽然从研究方法上讲,社会科学乐见获得总体的数据,但在社会科学研究中却与舍恩伯格的愿望大相径庭,主要问题在于社会科学研究对象的特殊性,这主要包括两个方面的问题。

一是社会学科的研究对象本身的性质决定了难以获取总体数据。舍恩伯格所描述的能够量化的总体在社会科学研究中属于完美数据,是很少出现的,甚至没有出现过的。以舆情研究为例,通过现有传感器比如twitter、facebook、新浪微博等平台,甚至整个互联网上的数据,都只能是部分舆情。因此,网络舆情从来就不等于网民民意,网民民意更不是国民民意。当前快速获得民意的方式主要是网络调查,而网络上的声音和意见是由网民发出的,从统计学角度讲,网民作为抽样框和其背后的人口总体结构之间难以匹配。对于我国而言,据《第39次中国互联网发展报告》显示,我国网络普及率为53%,网民的主要人口指标和实际人口结构有着强烈的差异。

二是社会学科的研究对象本身难以通过测量获得大数据的概念体系。社会科学研究重在通过概念的操作性定义建构概念间的逻辑关系,而从存在环境上讲,大数据存在于各种形式的信息系统中,进行社会科学研究就要对研究对象进行精确的界定,如实证研究需要概念建构与测量的过程。这样,问题又回到了社会科学研究的一个基础性问题上,是不是所有的概念均可量化,进而建构概念之间的关系?我们知道,社会科学的研究对象是人类社会的发展规律,而人文学科的研究对象则是人类的精神世界和精神文化;人文学科研究中有人类社会研究内容的指向,而社会科学研究中也有人类精神世界的研究内涵,特别是在跨学科研究及新兴研究领域不断生成、不断扩展和深入的过程中,难以从学术理念及研究方法上真正切割各学科之间的边界。那么问题就还是聚焦在大数据的背景下,无论是人文学科还是社会科学在牵涉人类精神世界研究内容问题上的概念是否可以量化。如“美”这一概念,康德讲美是“无目的的合目和性”,黑格尔讲美是“绝对理念的精神显现”,经过社会科学方法的测量,结果却均为“美的”这一概念,而不是“美”。因此,大数据推崇者所说的“一切皆可量化”是要有限度的,至少在社会科学研究领域而言,在牵涉人类精神领域的概念测量方面,并不是至少潜在可观察可测量的人类社会那样,概念的描述性定义和操作性定义具有高度的一致性。

(二)混杂与精确的悖论:大数据追求质量,但数据的混杂性与精确性却不可调和舍恩伯格强调数据的精确性,但面对多元化来源的海量数据,他用数据的混杂性来解释大数据的特点,数据的混杂从何而来,主要是两个方面:一是空间的混杂,这种混杂直接影响共时数据获取的质量;二是时间的混杂,这种混杂的结果直接影响数据预测的精确。两者的混杂又构成了数据的盲目增长,而在这一过程中,无效数据的增长使得数据有效性或数据质量大打折扣。

第一,空间的混杂及影响。由于网络水军、五毛党或美分党在互联网上大量存在,以及其它的虚假信息的泛滥,经常使得我们所获取的来自互联网、移动互联网的数据的真实性、可靠性值得怀疑。正因为这样,舍恩伯格以混杂性为名对数据质量进行辩护,会引发大数据领域的社会科学研究基础问题的紊乱。

第二,时间的混杂及影响。大数据很重要的一个应用是对社会未来发展趋势的预测。在这一方面,有一个社会科学研究的精度问题,即高速获得的社会数据能不能精确描述社会的真实状况。

第三,数据精确性直接相关的是数据有效性的问题。随着数据量的增大,有效数据与无效数据都在增大。

(三)相关与因果的悖论:大数据的分析与研究范式,相关性的探索不能替代推断的价值实证研究中相关关系与因果关系的研究都有着重要的地位,而大数据应用于社会科学的主要功能则在于对相关性的探索。在这方面有三个问题需要讨论:

一是从相关性研究自身而言,大数据重在发现相关性,而难以解释相关性。在非大数据应用的情况下,相关性的探索主要依靠研究者对研究对象相关关系的提前设定,通过结构化的数据进行分析,对于提前设定的相关关系证实或证伪,这一过程我们可以称之为证明相关性。

二是从相关与因果关系而言,大数据无法阐释表象背后的本质。社会科学研究一直遵循“大胆假设,小心求证”的研究传统,而大数据的应用使研究有了从假设作为起点之外还可以从数据作为研究起点的另一选择。

三是从社会科学研究方法而言,质化研究的价值是大数据的相关分析所不具备的。社会科学的研究方法不仅是量化方法,还包括质化方法。而质化方法也是开展相关关系研究与因果关系研究之前进行探索性研究的主要方法,是凝结了研究者高度理论智慧的研究环节。

大数据应用于社会科学研究的价值与悖论(大数据应用于社会科学研究的价值与悖论)(3)

四、结语

从以上分析可以看出,大数据的生产、分享与使用正在迅速地改变着社会科学研究的格局。它使我们更加客观、全面、准确认识和了解这个世界,在社会学科研究中取得了不菲的成绩。但是大数据所描绘的理想状态,与我们研究的实际状况还有很大差距,可能科学研究的结果只能无限趋近于真理。就社会科学的各个研究领域而言,大数据方法的理论基础、选题指向、研究框架、信度效度和伦理规范都还处于起步阶段,只能说当前大数据给社科研究视野的提升、领域的拓展提供了一定的工具和思路。因此,在大数据的应用过程中还需要不断强化两个认识:一是对社会科学研究特殊性的认识。社会科学的“研究对象是事实性与价值性的统一,是可预见性与预见的有限性的统一,而且具有偶然性与不确定性。因此,复杂性思维是人文社科研究的总体方法论”,②再发达的技术也无法替代社会科学理论思维对社会现象本质以及研究过程中对人类精神的把握。二是对大数据应用方式和作用范围的认识。要认识到大数据对社会科学研究具有提升的作用,但只是达到社会科学研究目的的一种路径。(原文有删节)

(智库专家、山东大学新闻传播学院倪万唐锡光

找记者、求报道、求帮助,各大应用市场下载“齐鲁壹点”APP或搜索微信小程序“壹点情报站”,全省600多位主流媒体记者在线等你来报料! 我要报料

,