感谢您关注“永大英语”!

数字人文技术与人文研究(数字人文研究与语言期刊建设)(1)

数字人文研究与语言期刊建设

陈 勇

01引言

作为数字技术与人文学科跨界融合的研究领域,数字人文创新了人文学科的研究范式,实现了自然科学、社会科学和人文科学的深度融合,在各个学科领域取得了显著的成就,在新文科建设的背景下迎来了巨大的发展机遇。而数字人文正发端于语言学和文学领域的人文计算,随后向人类学、考古学、历史学等人文学科蔓延和渗透。语言期刊不能与数字人文渐行渐远,而应该继续承担并持续深化引领数字人文研究的历史责任,借助活动组织、平台搭建、专栏策划、话题设计等多种形式,支持大数据环境下以语料库语言学为代表的语言学相关领域数字人文研究在资源建设、技术应用、范式创新、方法拓展、工程实践等方面实现新的发展。

02数字人文的源起

数字人文(Digital Humanities)亦称人文计算(Humanities Computing或Computing in the Humanities),它是一个将现代计算机和网络技术深入应用于传统的人文研究与教学的新型跨学科研究领域,它的产生与发展得益于数字技术的进步及其在科学领域的普及应用。(王晓光2009)作为学科领域,数字人文是将计算机和数据科学等方法和手段应用于传统的人文研究与教学的新型跨学科研究领域,它将数字技术运用于人文阐释,是由媒介变革引发的知识生产范式的一次转型。作为研究范式,数字人文是各人文学科采用数字化方法所体现出的“方法论共同体”(Methodological Commons),具有范式的特征。作为研究方法,数字人文是将现代计算机和网络技术应用于人文研究的一种新兴研究方法。

数字人文的奠基者是意大利神父罗伯托·布萨(Roberto Busa)。1949年,布萨在IBM公司托马斯·J·沃森(Thomas J. Watson)的帮助下,用计算机成功为托马斯·阿奎那(St. Thomas Aquinas)和相关人员多达1100多万中世纪拉丁词语的作品编制语词索引(index verborum),并且使用计算机对于每一个单词进行了词目还原(lemmatization),也就是把文本中实际出现的经过形态变化的单词还原成原形词。他们把全部的书面文本转移到穿孔卡片上,输入计算机,编制程序进行检索。此后,美国、英国、法国等国学者相继利用计算机编制了系列英语诗歌语汇索引、高地德语机器索引、法语文学档案库等,语词索引、词典编纂成为了数字人文产生的直接源头。1979年,武汉大学在国内率先将老舍、叶圣陶、曹禺、茅盾、赵树理、巴金、夏衍、鲁迅、郭沫若等9位现代知名作家的33种小说和戏剧共527万字键入计算机,用RD-11微型计算机编制了索引。

与此同时,计算机技术在身份判定领域发挥的独特作用为数字人文的发展奠定了坚实的基础。1964年,莫斯特勒(F. Mosteller)和华莱士(D. Wallace)采用统计方法对《联邦党人文集》(Federalist Papers)中12篇作者有争议的论文进行分析,最终证明詹姆斯·麦迪逊(James Madison)是最为可能的作者。这一结论被普遍接受,以至于《联邦党人文集》的分析方法被用作检验作者身份鉴别的新方法。1981年,美国威斯康星大学讲师陈炳藻在首届国际《红楼梦》研讨会上宣读了论文《从词汇上的统计论〈红楼梦〉作者的问题》,从字、词出现频率入手,通过计算机进行统计、处理、分析,对《红楼梦》后40回系高鹗所作这一流行看法提出异议,认为120回均系曹雪芹所作。这项研究首次借助计算机进行《红楼梦》研究,轰动了国际红学界。

此外,机器翻译领域的开拓和进展有力地促进了数字人文的发展。1949年,美国洛克菲勒基金会自然科学部主任韦弗(W. Weaver)发表了一份以《翻译》(Translation)为题的备忘录,提出了机器翻译(machine translation)问题。1954年,美国乔治敦大学在IBM104电子管计算机上进行了第一次机器翻译试验,演示了第一个机器翻译系统原型,将60个用拉丁字母转写的俄语句子自动地翻译成英语,证明了机器翻译的可能性。20世纪五十年代中叶文化解冻初期,在莫斯科结构主义语言学传统的影响下,俄罗斯学者伊万诺夫(Вяч.Вс.Иванов)、列夫津(И.И.Ревзин)和乌斯宾斯基(Б.А.Успенкский)创建了机器翻译协会,提出了一般符号通讯论,在机器翻译领域也进行了诸多有益的探索。

数字人文技术与人文研究(数字人文研究与语言期刊建设)(2)

03数字人文的发展概貌

3.1数字人文的研究内容

2001年4月,意大利比萨大学的计算语言学教授、国际文学与语言学计算协会主席扎波里(Antonio Zampolli)召集多个学科的研究者在意大利的比萨召开了一次综合性的人文计算研讨会,随后发布了“比萨报告”(Pisa Report)。在该报告中,罗贝(David Robey 2001)教授绘制并发表了一幅有关人文计算的全景知识地图。

数字人文技术与人文研究(数字人文研究与语言期刊建设)(3)

该全景知识地图上中下三个区域分别清晰地指明了数字人文研究所面向的各种学科领域、所持有的方法论共同基础、所涉及的不同学科及其子学科的具体内容。其中,图中央区域方法论共同基础包括各种可计算的基础数据对象,如自由文本、格式化数据、图像、声音等,针对这些数据而进行的计算活动包括文本分析、数据库设计、数字绘图、音乐检索等(王晓光2010)。国内学者冯志伟(2022)认为数字人文至少包括四个层次的内容:第一个层次是人文数据库或数据集的建设,一方面是把非数字的人文资料加工转化为数字内容,另一方面是对非结构化的数字文本内容按照特定的使用目的进行规范化标注;第二个层次是人文数字工具的开发使用,一方面是使用或设计数字工具与平台解决传统人文问题,另一方面是使用或设计非人文领域研究的数字工具来理解和分析数据集;第三个层次是人文研究方法和研究范式的创新,主要是将人文学者较多采用的定性研究转变为定性研究与定量研究相辅助的形式;第四个层次是人文领域和文化遗产的数字化重建,主要指通过数字技术切入人文领域,对人类文化遗产的传承、传播、全球化和创新提供新的方法。由此可见数字人文研究内容鲜明的跨学科本体论属性和方法论共性。

3.2数字人文的典型研究

埃雷兹·艾登(Erez Aiden 2015)等在《可视化未来——数据透视下的人文大趋势》(UNCHARTED: Big Data as a Lens on Human Culture)中以“谷歌图书”项目为背景,通过500多万本电子书词汇历时使用频度的变化,展示了大数据在研究历史文化、人类语言、社会名望、群体记忆等方面的重要作用,从宏大的历时性角度凸显了大数据对人文学科研究的变革意义。马克西米利安·施奇(Maximilian Schich 2014)等通过获取公元前600年到2012年间150000名不同领域的历史杰出人物的出生和死亡空间数据,描绘了这些著名人物的空间迁徙模式,从宏观的角度绘制了3000年欧洲和北美的文化史图,使用大规模可视化和定量工具获得了文化中心空间发展的历史趋势(欧阳剑2018:67)。金观涛与刘青峰两位学者依靠全文共一亿两千万字的“中国近现代思想史专业数据库(1830—1930)”,运用长时段复杂数据的可视化图片,对“公理、社会、经济、个人、共和、天下、万国、世界、国际”等各种中国近代重要基本概念进行了系统的研究,揭示出了重要基本概念及概念群在数据库中的百年使用频率变化。(邱伟云2020:25)

1999年,北京大学中文系建成全唐诗电子检索系统。从2001年起,复旦大学历史地理研究中心与美国哈佛大学东亚系、哈佛燕京学社、澳大利亚格林菲斯大学亚洲空间数据中心、数字化文化地图集行动计划(ECAI)等机构合作开发了中国历史地理信息系统(China Historical GIS,CHGIS,又称“禹贡”)。2016年1月,哈佛大学、北京大学和台湾地区“中研院”三方合作组建的“中国历代人物传记数据库”(CBDB)项目组在北京大学举办“数字人文工作坊”,定期进行培训和宣讲,更是将数字人文研究推向高潮。该国际合作项目运作超过十年,目标在于系统地收录中国历史上所有重要的传记资料,并将数据开放供学术研究之用。此外,香港科技大学李中清、康文林教授研究团队“清代缙绅录量化数据库”项目,香港中文大学地球信息科学研究所开发的“民国时期北京都市文化历史地理信息数据库”,台湾地区“中研院”的“清代职官数据库”“中华文明之时空基础架构”(Chinese Civilization in Time and Space, CCTS)和台湾文化历史地图(Taiwan History and Culture in Time and Space, THCTS),厦门大学刘海峰教授领衔的“清代举人数据库”,南京大学梁晨参与的“民国上海大学生信息数据库”,上海图书馆的家谱平台,中国社会科学院当代中国研究所的中华人民共和国国史知识库,首都师范大学历史地理研究中心与陕西师范大学出版社联合开发的“丝绸之路历史地理信息开放平台”(Silk Road Historical Geography Information Platform)等,均是数字人文建设的重要成果,为开展各项研究提供了丰富可靠的资源。

数字人文技术与人文研究(数字人文研究与语言期刊建设)(4)

3.3数字人文的平台建设

2015年3月1日,在数字人文领域具有重要影响的文学与语言学计算协会(The Association of Literary and Linguistic Computing,1973,后更名为欧洲数字人文协会〈European Association for Digital Humanities, EADH〉)、人文领域计算机应用联合会(The Association for Computer in the Humanities)、数字人文学会(The Society for Digital Humanities) 3个学术组织联合组建了全球最大的数字人文组织——国际数字人文组织联盟(The Alliance of Digital Humanities Organizations, ADHO),该联盟每年召开一次数字人文年度大会。该联盟拥有4本同行评审数字人文研究期刊:文学与语言学计算协会会刊Literary and Linguistic Computing;加拿大麦克马斯特大学出版的电子期刊Text Technology;在线预出版物Computers in the Humanities Working Papers;国际数字人文组织联盟的专业电子期刊Digital Humanities Quarterly。全球有影响的数字人文中心主要分布在美欧日等发达国家,如伦敦国王学院的人文计算研究中心、美国斯坦福大学的计算机辅助人文研究中心和斯坦福人文实验室、麻省理工学院的数字人文实验室、南加利福尼亚大学的数字人文研究中心、马里兰大学的人文技术研究机构、伊利诺伊大学的科学与学术情报研究中心、日本立命馆大学的京都数字文艺研究中心等(王晓光2010)。截至2020年11月,数字人文中心网络(Center Net)上已拥有全球203家数字人文研究中心成员单位。

在国内,2011年4月,武汉大学成立了中国第一家数字人文研究中心,该中心是CenterNe亚太联盟5大创始成员之一。2019年以后,中国人民大学、北京大学、上海师范大学、浙江大学等高校纷纷成立数字人文研究中心。与此同时,清华大学、中华书局2019年12月联合创办了中国大陆第一本数字人文学术集刊《数字人文》(Journal of Digital Humanities),该刊以文史哲等传统人文学科为中心,涵盖社科、艺术、教育、新闻传播、法学、管理等多学科,发表运用数字资源、方法和思维解决人文问题的优秀成果及国内外相关资讯。2020年7月31日,中国人民大学创办的专业期刊《数字人文研究》(Digital Humanitics Research)由国家新闻出版部门批准获国内统一连续出版物号,2021年开始在国内外公开发行。

3.4数字人文的期刊发文

进入21世纪,数字人文研究论文的发表数量呈现迅速增长态势。选取Web of Science核心合集中的SCI-ESSCIA&HCICPCI-SCPCI-SSH以及ESCI作为数据源,检索表达式为TS=((“digital humanit*”) or (“humanit*computing”) or (“digital NEAR humanit*”) or(“digital NEAR computing”) or (“humanit*NEAR computing”) or (“Computing in the Humanit*”)),显示2001—2019年发表的数字人文论文数量为1887篇。(王静静、叶鹰2021:46-47)。在国内,学界一般认为,“数字人文”作为一个舶来概念是2009年由武汉大学信息管理学院王晓光教授正式引入中国学界的。2009年,王晓光在“2009年教育部人文社会科学研究方法创新论坛”上发表了“‘数字人文’的产生、发展与前沿”一文,此文随后于2009年12月3日发表在“科学网”上。同一年,台湾大学举办了第一届数位典藏和数位人文会议,提出将数字人文与数位典藏放在同样重要的地位。在中国知网中以“主题=数字人文OR人文计算”为条件进行检索,数据显示,第一篇直接谈“数字人文”的论文是廖祥忠发表在《现代传播》2005年第6期上的“超越逻辑:数字人文的时代特征”一文,而2005年仅检索到这一篇,2006年检索到1篇,2007—2010年没有检索到,随后的2011年检索到3篇,2012年4篇,2013年4篇,2014年11篇,2015年22篇,2016年47篇,2017年109篇,2018年179篇,2019年204篇,2020年348篇,2021年480篇。可见,2017年以后国内数字人文主题发文数量开始大幅增加,标示着数字人文研究在国内开始进入快速发展阶段。

数字人文技术与人文研究(数字人文研究与语言期刊建设)(5)

04数字人文视域下语言学研究的重点方向

当前,人文知识的可计算性快速从文学和语言学领域向人类学、考古学、历史学、音乐学、艺术学等多个领域扩展。在这一进程中,数字原生数据越来越多,如数字地图、计算机图像、在线网页、虚拟人物等,它们的产生极大地丰富了人文研究的对象,同时也对人文计算的定义产生了深刻影响。人文学者开始越来越频繁和深入地使用各种新型的数字技术处理人文资料,并进行人文知识生产,如创作电子文本、扫描古籍图书和绘本、使用虚拟技术复原古建筑模型和历史上的都市、开发和建设各种在线的文本声音视频数据库等。应该强调的是,作为数字人文之发端的语言学和文学领域的人文计算,理应继续担负数字人文研究引领者的角色。事实上,根据柯平、宫平(2016)的一项文献计量学研究,从Web of Science核心数据集检索到的2015年前的373篇数字人文研究文献中,词频高于10的关键词仅有19个,其中排第一位的就是“计算语言学”,此外,“语言学、语料库语言学、语义学、话语、语料库、自然语言、自然语言处理”等语词也位列其中,占高频关键词的42%。王静静、叶鹰(2021)一项关于国际数字人文研究中跨学科知识扩散趋势的研究,基于Web of Science核心数据集相关数据源中数字人文研究文献的引用数据,认为在知识扩散过程中计算机科学、图书情报学两个学科的知识流动较为频繁,语言学领域的论文越来越受到其他学科的广泛关注。这些都凸显了语言学在数字人文研究中的独特地位。事实上,数字人文从最初语言学领域以语料库为核心、围绕文本计算展开的人文计算,慢慢延展到人类学、文学、社会学、新闻传播学、历史学、档案学、图书馆学、管理学、艺术学、文化学等诸多学科,广泛吸收来自不同学科的理论与方法资源,打破了学科壁垒,但语言学领域的文本分析与文本挖掘等仍然是数字人文的主要手段。

关于数字人文视域下语言学的研究指向,罗贝教授2001年提出的数字人文全景知识地图就显示,数字人文的语言学(Linguistics)研究的具体内容包括语料库语言学(corpus linguistics)、计算语言学(computational linguistics)、语言产业(language industries)等。王晓光(2010)认为数字人文实践前沿包括历史学方面基于GIS(Geographic Information System)的历史地理可视化,文学方面的文本挖掘与TEI标准(Text Encoding Initiative),语言学方面基于大型语料库的语料库语言学,舞蹈方面的视频捕捉、运动分析与虚拟现实再现,考古学方面的图像分析、色彩还原和数字重建,数字图书馆和网络数据库等6个方面,其中语言学方面强调的是语料库语言学,显示语料库语言学是数字人文视域下语言学研究的首要方向。事实上,数字人文是数字技术与人文学科的跨界融合产物,语料库语言学是语言学在计算机技术发展过程中产生的新兴学科,与数字人文学科的诞生有异曲同工之妙,二者在诸多方面有交融之处。奥伯黑尔曼(D.D.Oberhelman)认为数字人文和语料库语言学均实现从元学科领域的“近读”到“远读”模式;布鲁克(J.Brooke)等认为在文学计算分析的语境中,数字人文学者和计算语言学家是天然的共生关系,两个领域重叠度的升高为彼此发展产生了强大的驱动力。语料库语言学与数字人文在处理对象、技术依赖、方法转变、研究导向等方面都表现出共同趋势(徐彤阳、王霞2021:92)。

语料库是外国语言文学学科领域首先需要倚重的数字人文研究工具和方法。在机器翻译发展历程中,正如英国著名学者哈钦斯(J.Hutchins)在1993年7月第四届机器翻译高层会议(MT Summit IV)上指出的那样,机器翻译的发展进入了一个新纪元的重要标志是在基于规则的技术中引入了语料库方法,认为这种建立在大规模真实文本处理基础上的机器翻译是人文计算研究的一场革命,它将会把人文计算推向一个崭新的阶段(冯志伟2022)。语料库语言学正是计算机语料库技术在大规模语言描写中的运用,主要研究机器可读自然语言文本的采集、存储、检索、统计、自动切分、词性和句法标注、语义标注、句法语义分析,并研究具有上述功能的语料库在词典编纂、语言教学、语言定量分析、词汇研究、词语搭配研究、语法研究、多语言跨文化研究、法律语言研究、作品风格分析、自然语言理解和机器翻译等领域中的应用。事实上,中国在20世纪下半叶就开展了语料库相关研究,最早的如1976年武汉大学语言自动处理研究组利用计算机统计老舍《骆驼祥子》的字频。从1979年到1983年,有4个大型的现代汉语语料库项目在中国大陆发展成型:武汉大学的汉语现代文学作品语料库(1979年,527万字)、北京航空航天大学的现代汉语语料库(1983年,2000万字)、北京师范大学的中学语文教材语料库(1983年,1068万字)、北京语言学院的现代汉语词频统计语料库(1983年,182万字)。目前,国内语料库建设取得了显著成就,类型多样、规模空前的一大批语料库建成并投入使用,为语料库语言学研究提供了丰富的数据资源,如国家语委现代汉语通用平衡语料库、北京语言大学BCC语料库、清华大学TH语料库、北京大学CCL语料库、人民日报标注语料库、清华汉语树库等通用单语语料库,中国科学院汉英平行语料库、南京大学英汉双语平行语料库(NJU-BDRCBC)、清华大学中英平行语料库、北京大学计算语言研究所双语平行语料库、北京外国语大学双语平行语料库、南京农业大学典籍平行语料库等双语平行语料库,北京语言大学的汉语中介语语料库、北京语言大学的HSK动态作文语料库、中国传媒大学的有声媒体文本语料库、名著汉英平行语料库、少数民族语言语料库等特色语料库。这些语料库的成功构建和不断扩展,为语法学、语义学、语用学、词典学、语言风格学、对比语言学、语言类型学、翻译学、修辞学等不同研究方向的语言研究提供了真实的海量语料,极大地推动了语言研究范式、语言研究方法、语言研究路径的融合创新。

数字人文技术与人文研究(数字人文研究与语言期刊建设)(6)

05语言期刊的历史责任

正如《数字人文》创刊词所提到的那样:“数字化浪潮无所不在,也正在改变着包括人文研究在内的学术领域。数字环境下可以发现前数字时代难以发现的现象,提出前数字时代下难以提出的设想,开展前数字时代难以开展的工作,解决前数字时代难以解决的问题。这些问题往往不再属于人文领域的某一学科,人文学者需要打通自身的学科壁垒,还需要与计算机、统计学、信息情报等领域的学者深度协作。”正是在这样的背景下,数字人文从方法论角度颠覆了学科的固有问题和基本边界,为人文学科提供了搭建新型研究方法、知识体系、呈现方式和理论框架的途径。通过跨学科的数字人文研究,加强不同领域学者的跨界合作显得尤为重要:人文学科研究者提供原始资料与问题导向;数字人文技术专家提供数据分析与算法技术;可视化设计师进行视觉、叙事与交互设计。以此探寻以数据驱动的人文学科研究的新方法以及人文学科与数据科技有效结合的方式,从而实现文理科之间的资源优势互补与共享(魏婧婧2022)。

面对数字人文建设如火如荼、数字人文研究风起云涌的盛况,学术期刊界应该做出积极回应,立足期刊的办刊宗旨和学术定位,引领、支撑数字人文研究的蓬勃发展。事实上,2015年以来,《中国社会科学》《清史研究》《史学月刊》《中国史研究》《图书馆论坛》等期刊纷纷开设研讨数字人文或者数字学术等方面的专栏。作为立足于数字人文研究之发源学科——语言学的语言期刊,更是应该继续承担并持续深化引领数字人文研究的历史责任,借助平台搭建、专栏策划、话题设计、活动组织等多种形式,支持大数据环境下语言学相关领域的数字人文研究在资源建设、技术应用、范式创新、方法拓展、工程实践等方面实现新的发展。在这方面,支持语料库语言学研究应该成为语言期刊服务数字人文研究的首要任务。正因如此,《解放军外国语学院学报》4个常设栏目“语言与语言学研究”“外语教学研究”“翻译研究”“外国文学研究”均优先刊发语料库相关研究论文。据统计,从刊物2014年改版以来,刊发语料库相关研究论文104篇,占总刊发论文12.2%。这些论文涉及语料库构建、跨语言对比、构式研究、词汇研究、情感/态度分析、话语研究、隐喻研究、语义研究、接口/界面研究、语法化、文体学问题、语言障碍、语言信息处理、语料库翻译学等不同研究领域或研究方向。与此同时,刊物先后推出了语料库与话语分析专题、语料库与翻译研究、语料库语言学研究、语料库应用研究、语料库翻译学研究、基于语料库的语言/语篇对比研究等语料库相关研究专栏11个,收录论文45篇。

除了应用日臻成熟的语料库技术之外,语言学数字人文研究领域所倚重的技术含盖了自然科学和社会科学各个层面的技术手段。孙辉(2018:10)强调了常被引入数字人文的量化分析、文本分析、GIS空间分析、社会网络分析、知识组织技术等5种数字技术;刘炜、叶鹰(2017:34-37)将数字人文的技术体系归纳为数字化技术(构造数字人文的资源基础)、数据管理技术(构造数字人文服务系统)、数据分析技术(构造数字人文应用平台)、VR/AR技术(构造数字人文的交互环境)、机器学习技术(构造智能系统实现智慧服务) 6个方面。综观数字人文技术体系日新月异的动态发展及语言研究范式和方法不断创新的发展趋势,我们应该看到,除了语料库技术之外,文本向量模型、社会网络计算、知识图谱构建、数字地理空间分析等多种数据管理和量化分析方法在语言学数字人文研究领域得到了越来越多的应用,特别是近些年虚拟现实(VR)/增强现实(AR)、人工智能(AI)、云计算、元宇宙、大数据可视化交互等前沿技术也日益广泛地应用到语言本体研究、语言信息处理、语言教学设计等各个领域。在这种情况下,语言期刊应因势而为,支持问题跨界、学科融合和工具共通的数字人文研究理念,通过组织高端学术活动、开辟特色专栏、推送标志性论文等方式推动数字人文领域下的语言研究。为此,《解放军外国语学院学报》近年来重点推出了运用眼动测量技术、ERP技术、键盘记录技术、可视化技术开展的二语习得和加工、语码转换、词语表征、翻译过程、语篇阅读和理解等方面的研究论文。我们认为,适应数字人文研究的不断拓展和数字人文技术的不断发展,语言期刊应紧紧把握数字人文背景下语言学学科内涵和外延的演化,加大对基于数字化技术的多模态语言资源建设,基于语义技术的语言学本体构建,基于自然语言处理技术的信息抽取、情感态度分析和网络舆情监测,基于知识图谱的文本挖掘,基于GIS技术的译者群体、语言学家、作家、诗人时空演化研究,基于数据可视化技术的语言文化概念分析,基于语料库技术的修辞风格、文本风格、作者风格研究,基于人工神经网络的文本、语音和图片机器翻译研究,基于语料库技术的对比语言学和语言类型学研究,基于社会网络分析技术和方法的应用语言学研究,基于知识组织技术的外语教学与二语习得研究,基于虚拟现实(VR)/增强现实(AR)技术的语言教学场景设计与实现等数字人文研究领域的关注和支持力度。

(参考文献 略)

(本文首次发表在《当代修辞学》2023年第1期)

数字人文技术与人文研究(数字人文研究与语言期刊建设)(7)

,