文本解读的一些理论（三种文本分析方法知识论）

文献来源：张善若：《三种文本分析方法知识论、方法论之比较——以中国政治文化研究为例》，《中国政治学》2020年第3辑，第65-85页。

作者简介：张善若（Shanruo Ning Zhang），北京大学国际关系学院本科（1999），加州大学圣芭芭拉分校政治学博士（2007），现任美国加州理工州立大学政治学教授。

内容提要：诠释学、内容分析和话语分析都是对文本进行分析的研究方法，但各自的学术渊源、数据类型、分析方式和推论路径迥然不同，方法论研究者们也很少将它们相提并论。钻研如何准确释义文本的诠释学历史悠久，现代诠释学又在社会科学知识论和方法论的框架下，进一步巩固并澄清了释义性分析的研究性质和科学标准。内容分析研究者响应量化分析的时代号召，力图精准地将文字体现的内容、主题等特征转化为量化数据。话语分析运用语言学的概念和分析工具来透视“使用中的文字”体现出的政治与社会现象。本文一方面对每一种方法的知识论和方法论基础与特点进行界定，另一方面将三种方法各自对文本的定义、基本假设和主要分析手法进行对照与比较，试图更清楚地认识现有研究中存在的一些主要问题，同时思考如何让这三种方法在实践中各展所长、相得益彰。由于“释义性”分析在三种文本分析研究实践中普遍存在，如何将这种主观性的解释分析更有机、有效地与内容分析中的定量分析以及话语分析中的语言分析相结合，从而更科学、规范地推动文本分析实践和方法论的发展，是一个重要课题。

文本解读的一些理论（三种文本分析方法知识论）(1)

张善若教授

关键词：文本分析知识论；文本分析方法论；诠释学；内容分析；话语分析；释义性分析

古今中外的文化历史发展中，文本是最重要的意义载体之一。由一笔一画、勾勾点点而形成的文字，如何组成词、构成段，从而传递信息、表达意义？文本分析是试图对这些隐藏在文字符号背后的意义进行翻译、解释的分析方式和手法。如何对文本进行最恰当的分析和最准确的解读，是西方学术传统从其源起时代便开始讨论的问题。古希腊人认为，上帝创造了一个有智慧的宇宙（an intelligent universe），又在其中赋予人类“语言”这个工具，从而能够通过文本向人类传授智慧和知识。如何通过解释宗教文本来最完整、深刻、圆满地理解上帝的意思推动了诠释学（hermeneutics）这门学问的发展，文本也从而在欧洲的科学发展、知识积累和文化繁衍的过程中占据核心地位。“诠释”也绝非西方独有的学术实践。洪汉鼎指出，儒家经学传统中的训诂、考证、文字、音韵等各种学问都是中国传统学术实践中的诠释方法。如果我们广义地将“文本”定义为“一篇有意义的文字”，将“政治文化”定义为与政治相关的价值取向、思维方法、表达方式、态度倾向和喜好偏见，那么形形色色的政治文本——如领袖讲话、日常讨论、宣传告示、法律法规等——都可以为我们透视、分析与反思政治文化现象提供翔实丰富的数据基础。

讲求经验和实证研究的现代社会科学方法论向诠释学提出了新的挑战。第二次世界大战后社会科学发展（尤其是在美国政治学界）迅速转向定量分析，政治文化研究展现出调查问卷研究（survey research）一枝独秀的新局面。从阿尔蒙德（Gabriel A. Almond）和维巴（Sidney Verba）的名著《公民文化》到帕特南（Robert D. Putnam）的《使民主运转起来》，再到英格尔哈特（Ronald Inglehart）对后现代政治文化的一系列研究都是这一门类学问的代表著作。问卷调查在政治文化研究中的贡献是开创性的，使得数据收集处理的系统性和代表性更高、分析过程更加透明直接、推论过程建立在统计科学的基础上。这些优势为政治文化研究提供了更整体、具体和实证的数据、分析、论点和知识，因而广受研究者的欢迎。

问卷调查覆盖面广、代表性强，却难以深入政治文化的机理内部。该方法收集到的是某一时刻被访人的态度、认知和偏好，此类数据便于迅速勾画舆情，却很难探测到思考决策过程、认知思维模式、知识和价值观基础等更深层次的政治文化机理。若要在这些层面上研究政治文化现象，我们需要突破问卷研究自身的限制，探求新的方法、数据和思路。文本分析即是这样的新方向。面对实证主义（positivism）、经验主义（empiricism）和行为主义（behavioralism）的挑战，身处科学哲学、政治理论、实证研究方法、政治学、语言学等各个领域的文本分析学者积极回应，促进了文本分析知识论和方法论的长足发展。以量化分析为主要特点的内容分析方法应运而生，并且迅速地从最初的人工丈量文章篇幅、尺寸，发展到目前以数据挖掘技术为基础的（全）自动化文本处理和分析系统。古老博大的诠释学也经过施莱尔马赫（Friedrich Schleiermacher）、狄尔泰（Wilhelm Dilthey）、胡塞尔（Edmund Husserl）、海德格尔（Martin Heidegger）、伽达默尔（Hans-Georg Gadamer）等科学哲学家的发展，以“诠释圈”（hermeneutic circle）概念为基础，从方法论和知识论两方面论证了诠释分析的客观性。从维特根斯坦（Ludwig Wittgenstein）、奥斯丁（John Austin）、塞尔（John Searle）等语言哲学家发展出的言语行为理论（Speech Act Theory），以及从功能语言学衍生出的话语分析和批判性话语分析，也从语言学的角度为文本分析开辟了新的天地。

本文探讨文本分析三大支流——诠释学、内容分析和话语分析——各自的知识论、方法论基础、基本分析模式和路径，以及优势和盲点。虽然三者都是对文本进行分析的研究方法，但各自的数据类型、分析方式、推论路径（inference）等核心分析程序迥然不同。由于它们各自在理论和方法上的侧重点不一，每一套方法需要使用的文本数据就截然不同，不同的数据引发的分析方式也因此迥异，从分析到论点的推论过程也大相径庭。因此，这三种方法如同三把刻有不同纹路锯齿的刀，各自针对文本的不同侧面提炼出不同性质的文本数据，引领研究者进入不同形态的分析，从而回答不同类型的研究问题。因此，每一种分析都被看作一种独特的分析方法，方法论研究者也很少将它们相提并论，对自己擅长的方法也各专其职，很少跨领域操作。但是，从本质上说，这三种方法都是文本分析，都是要将文本转化为某种形式的数据，进而对其进行某种科学性的分析。而在实践中，这三种方法的界限也远非清晰明了：以定量分析为旗帜的内容分析中往往不可避免地含有释义性的成分，以语言学为基础的话语分析研究中也常常有定量和释义性分析的操作。但是由于每一种方法都有其独特的“数据—分析—论点”路径，如果不仔细甄别，往往会造成数据特征、分析方式和推论过程不相匹配的混乱局面。

这三种方法的侧重点、优势长处皆不同，本文相关部分所强调和详述的角度和层面也随之不同。内容分析以量化方法为目标，其方法论的讨论主要集中在操作层面。现代诠释学的发展主要在哲学和科学哲学层面上进行，对具体操作涉及较少，因此它在实证研究中没有能够得到更广泛的应用。话语分析建立在语言学基础上，其内部又分若干派别，在语言的视角、文本数据的提取、分析方法的选择等方面更是纷繁复杂，令人目不暇接，在一篇文章中无法详细介绍。因此，本文的主要意图是对这三种方法在知识论基础和方法论理论上进行介绍、解释、厘清，而非介绍各自的主要操作手段。将这三种文本分析方式“肩并肩”放在一起，一方面对每种方法的自身特点进行清晰的界定，另一方面将三种方法各自对文本的定义、基本假设、主要手法进行对照和比较，能够帮助我们更加清楚地认识现有研究中存在的主要问题，同时促使我们思考如何让这三种方法在实践中各展所长、相得益彰。

一、释义性分析：现代诠释学的新发展

西方宗教和知识传统将《旧约》《新约》及其他宗教经典中的字、词、句看作上帝传递真理的载体。因此，如何准确地解释这些语言符号是重大的知识论和方法论问题。诠释学发源于古希腊时代，研究的就是如何最精确、最原汁原味地将涵括在文本中的真理展现出来。从14世纪起，自然科学的发展使科学与宗教逐渐背离，知识分子对由教堂控制的“知识”产生了根本性的怀疑。由此产生的理性主义（rationalism）认为，真正的理性思考应该摆脱宗教意味浓厚的所谓“科学传统”的束缚。经过几百年的演变，这样的思路敦促思想者将自己内在的思考过程（mind）与外在世界对自身可能产生的一切影响（world）相隔离。在科学研究领域，使研究者与研究对象之间完全隔离的实验方法成为黄金标准。这使“诠释”这一分析模式陷入了危机。因为诠释者是根据自身的“既有理解”（pre-understanding）——包括世界观、文化背景和知识基础——来进行释义的。脱离了这些既有理解，诠释就无从谈起；然而根据既有理解所做的诠释，在新的科学标准下是不客观、不科学的。

在新的挑战面前，现代诠释学发展的首要目的是巩固其方法论和知识论基础。现代诠释学家们指出，实证主义提出的、将分析的主体与客体之间完全隔离的“科学规范”是不现实、不可能的。他们将“释义”（interpretation）这个活动从一种对文本的分析活动，上升到了人类生存认知的新高度，形成了“general hermeneutics”（普遍诠释学）的概念和思想领域。海德格尔在这一发展中起到了极其重要的作用。他认为，人从生到死，就是要完成“生存”（living）这个任务，于是我们对世界中任何一个事物的理解都是以这个任务为出发点而进行的一番诠释。比如钉锤这样东西，我们一般就是拿起来用，直到钉锤坏了、头和把分离、没法用的时候，我们可能才会停下来观察它的具体的构造。钉锤在我们生活中的具体功能，就是它在我们“生存”这个任务和过程中产生意义和作用。支持此观点的哲学家们进一步指出，这种从生存任务出发探索、认识世界的倾向也引导着自然科学的发展。如果我们的生存不需要水，我们就不会研究水，也不会了解到水的化学成分是 H2O。因此，科学分析的对象绝不存在于一个与研究者隔离的实验室里；恰恰相反，它们正是活生生的生活、社会的一部分。由此，现代诠释学在实体论和方法论层面上系统地建立了“存在性诠释”（existential hermeneutics）这样的宏大概念。

从这个角度出发，现代诠释学深刻挑战并且彻底否定了实证（positivist）研究中所建立的研究者和研究对象“因为隔离，所以客观”的假设和立场，并且进一步指出，如果这个“客观性”标准不适用于人类对自身文化、社会和政治活动的解释和分析，我们就需要对其重新定义。那么，现代诠释学的客观性从哪里来？诠释学家认为，通过对某一特定的研究对象的分析，释义者进入一个已有的、不易改变甚至不能改变的概念和理论体系中，这个体系囊括以往所有重要的关于此现象的解释和分析。伽达默尔指出，正是这个大诠释圈的“结构”（structure）给释义等看似“主观”的分析行为提供了客观基础。虽然不同的人对同一现象会有不同的解释，但在宏观层面上，这些解释仍然是针对一个“客观”（objective）现实来进行的。齐默尔曼（Jens Zimmermann）将其比喻成一种事先制定好规则的游戏。不同的释义者就是通过玩同样的游戏进入同一个已有的、客观的结构中，只在规则限定的范围内有自由发挥的空间。现代诠释学将知识结构的客观性与研究者个体的主观性如此结合起来，超越了实证方法论中客观与主观非此即彼的格局.伽达默尔指出，即使在科学领域里，研究者选什么题目、如何选材、如何分析等都与其自身的既有理解密切相关。诠释者所在的文化和知识环境是任何释义性分析无法逃脱的思想环境。

这一角度可以凸显“冷战”期间形成的、以“民主—威权”为轴心的知识体系对中国政治文化研究的影响。史天健和吕杰指出，中国舆情研究展现出相互矛盾的发现和解释，其根源在“问卷研究的方法本身”。在西方社会中，民意调查问卷常常测试民众对民主的满意程度，而隐含在测量工具背后的，是其既有的政党、选举等民主制度和公民文化中蕴含的关于民主的特定理解。在受儒家政治文化影响的东亚社会中，民主制度发展程度不一，但是民众仍然拥护以“民本”为基础的民主政治。于是产生了在中国这样一个权威型国家里，民众对民主高度拥护这一让人费解的调查结果。史天健与吕杰的解决方式是从儒家政治文化的价值观和规范为出发点来设计调查问卷，以展示生长于儒家文化中的当代舆情对民主的理解。另外一条可行的分析路径则是通过对常用测量工具的不同组合，来展示一个崭新的理论局面，如唐文方用西方常用的调查问题来阐释群众路线在当代中国政治中的作用。史天健、吕杰、唐文方三位的解决方法，也都深深镶嵌在作者从自己在中国的成长、生活经历中所积累提取的知识和经验当中。他们的既有知识对其研究的选材、分析、解析等方面的考虑和选择产生了关键性的影响。

这些新的科学性、客观性标准，为我们在经验科学、社科方法论框架下讨论释义性分析奠定了基础。如上文所说，诠释学的近代发展主要集中在科学哲学和宏观理论层面，不涉及具体的文本分析方法和操作，因此在社科的经验性科研实践中难以被直接应用。在实践中，研究者们对“什么是诠释”“如何诠释”等方法论问题也很少细究，各种做法蜂拥而上，缺乏规范性，被批评为主观性强、科学性弱。社会科学一些早期作品中的文本分析，在数据类型、分析方式以及推论模式上，一方面为了增强科学性，在文本选择和分析目的方面脱离了传统诠释学的既有轨道，另一方面也未能与现代社科标准良好对接，真正成了“四不像”。传统诠释学中的分析往往针对某个具体的给定文本，准确解释是主要目的。而社科方法论近百年的发展使得数据的代表性、内部效度和外部效度等指标，在定性研究和定量研究中，都成了重要的质量标杆。在早期的社科研究中，分析者常常自然而然地将文本分析与其他分析方式——如参与性观察、访谈等——并用，而且往往顺应需要将各种不同性质的文本——日记、演讲、新闻报道、对话等——综合使用。比如，韦伯在《新教伦理与资本主义精神》中使用的文本包括新教经典教义、富兰克林的日记等材料。托克维尔在《论美国的民主》中引用了《联邦党人文集》（The Federalists）等美国政治的纲领性文献。在中国政治文化研究领域中，改革开放前在西方出版的作品对文本分析的使用频率很高，因为其他数据来源非常匮乏。其代表作，如刘易斯（John Wilson Lewis）的Leadership in Communist China、白鲁恂（Lucian Pye）的The Spirit of Chinese Politics、所罗门（Richard Solomon）的Mao's Revolution and the Chinese Political Culture，都大量引用、释义、分析了中国共产党及其代表人物的经典文献，如毛泽东的《矛盾论》《新民主主义论》《反对自由主义》《关于正确处理人民内部矛盾的问题》、刘少奇的《论共产党员的修养》《论党内斗争》，以及在《人民日报》《光明日报》《红旗》上发表的重要文章等。所罗门在其书的第二章对中国传统中权威与个人的关系进行分析时，使用了《孝经》等传统儒家政治文本。这些“经典”文本代表性有多强？研究者是否只选取支持自己观点的文本？同时，作者对如何准确释义、如何使用上下文、如何使用政治社会背景等至关重要的传统诠释学方法问题也缺乏关注。由于这两层原因，“深度解读”式（deep interpretation）的分析在日益倡导科学化的政治学中逐渐被边缘化了。

近年来，文本数据日趋多元，也更容易获取，由福柯、哈贝马斯等学者带动的话语分析在理论和方法方面不断推进。中国政治文化中的文本分析研究者积极吸纳了这些新学问，但是很多在题目和关键词中使用“话语”和“话语分析”等概念的作品，并未能够在“语言”的层面上，真切具体地使用话语分析的方法。其主要分析形态仍然是泛泛而言的释义性的，选材仍然比较随意开放。比如孔书玉（Kong Shuyu）通过对电影、电视作品的“多媒体话语分析”（multi-modal discourse analysis），讨论了“山西商人”这个文化形象和话语与中国经济发展的政治环境之间的关系。在文中，作者通过对相关话语现象的分析透视和总结归纳来展示该文化现象的一些宏观特点。斯特劳斯（Julia Strauss）对中国官方和半官方组织关于拉丁美洲的政治讨论和修辞的分析所选取的文本包括相关外交政策，如《和平共处五项原则》《对外经济技术援助的八项原则》，以及重要领导人讲话。类似的研究还有华世平（Shiping Hua）对邓小平和戈尔巴乔夫的改革话语的对比分析，德勒里（John Delury）对中国政治话语中各领导人时期出现的“小康”“大同”“和谐”等词汇的解析，Susanne Choi对中国政府关于艾滋病、娼妓等社会现象的话语发展的讨论，郑田田（Zheng Tiantian）就国家、媒体和知识界对来到城市的农村年轻女性所构建的话语的分析，等等。

与早期作品相比，这些新近作品摄取的数据更加多元、宽广，分析的针对性、经验性更强，可以高屋建瓴地概括、突出某种文化或者话语现象的主要特点。但是在材料遴选和解释方法方面仍然缺少系统深入的方法论思考和应用，在数据的代表性、分析的内在有效性、推论的外在有效性方面都略显薄弱。从这个层面上来说，内容分析和话语分析都是旨在匡正释义性分析的现有欠缺、加强其科学性的积极尝试。前者以编码为核心数据处理过程，把“没有结构”的文字变为“有结构”的数字，以利于量化分析。后者则运用语言学、社会语言学等学科的概念和分析框架，对文本的语言性质和特征进行深入机理的分析与解释。

二、内容分析：量化文本分析的根本困境

内容分析应量化研究的需求而生，可以“客观地、系统地识别讯息的特点，并且由此得出结论”。据伍德拉姆（Eric Woodrum）记载，最早期的内容分析意在考察不同宗教派别的祈祷词里是否有宣扬异端邪说的字眼。在美国报业大发展的19世纪后期，出版商和编辑们将报纸版面的内容与发行量结合起来，研究什么样的题材最受读者欢迎。第二次世界大战期间，美国政治学鼻祖之一拉斯韦尔（Harold Lasswell）带领团队对敌军意识形态传播进行研究，促进了内容分析方法的大发展。20世纪六七十年代美国民权运动发展期间，内容分析研究者们将视线转向少数族裔、女性等弱势群体在大众媒介中出现的频率、所代表的形象等。内容分析通过分类与编码，将“意义符号”（signs of meaning）转化成为数码，从而将“文化产物”（cultural products）转化为量化数据，使研究者能够对政治、社会、文化现象进行量化分析。

作为内容分析的核心过程，“分类”和“编码”将文字材料转变为量化数据。因此，是否分类、编码，是内容分析与其他文本分析方法之间最主要的分界线。在内容分析研究中，如何进行分类和编码又有“数据驱导”（data-driven）和“理论驱导”（theory-driven）之分。数据驱导的套路从文本出发，用演绎法逐渐发展出编码模式（coding scheme），让文本的主题、概念在此过程中“自动”涌现出来。扎根理论即是遵循这一原则。理论驱导从理论出发，确立分析单位（unit of analysis），建立编码方式，对选择出的文本进行编码，最终产生“文本主题”（text-by-theme）矩阵，然后通过不同的统计方法进行分析。内容分析研究者对数据摄取方式有更系统细致的关注，对数据框架有明确的定义和界限（如《人民日报》某年到某年的关于某题目的评论），既可以对框架中的全体数据进行分析，也可以从中抽取样本。这与传统释义性分析在取材方面的随意性、开放性形成鲜明对比。在确定分析对象和单位（字、词、句、段或文）以后，研究者在每一个分析单位上，对相关内容进行编码，由此得名“内容分析”。“内容”被定义为“交流的特点”（characteristics of communication），涵括的内容非常广泛，包括“字或符号”“主题”“特点”“段，句，或者其他语法单位”。

这个定义赋予内容分析方法相当广阔的应用范围，但也是实践中一些含混操作的根源。严格地说，内容分析中的“显性标示”（manifest indicators）和“隐性标示”（latent indicators）的量化数据生成方式（data generation）是截然不同的。虽然这两种不同性质的“内容”都是分析者将文字通过分类、编码转化为量化数据的，然而其具体转化过程却大相径庭。对显性标示的分析关注某个字、某个词出现与否，最直观的编码方式就是“该词汇出现＝1，不出现＝0”。在这里，文字被当作数字处理，编码程序简单明了，没有含混余地，编码误差可以为零。在此基础上可以进行词频、与其他显性标示的相关性以及因子分析（factor analysis）等数学性或者统计性分析。而若要对一段文字的主题、倾向、重点、态度等意义层面的“隐性标示”进行分析，分类和编码在很大程度上依赖于编码者的“释义”。因此，从数据处理的第一步开始，对隐性标示的分析在相当程度上是释义性分析。对文本中隐性的意义，内涵层面的分类、编码、分析、推论，不是通过观察一个词是否出现能够完成的，最终依靠的是分析者和编码者的理解和解释。

编码过程中释义性分析的重要性引发了两个方法论问题。首先，是否能够在既有的语言和意义环境中最准确地编码，会直接影响到分析的准确性。做过编码的研究者都知道，如果说对显性标示的编码程序直白明了、毋庸置疑的话，对隐性标示的编码过程往往是一个是非难辨、思前想后、拖泥带水的过程。政治文本是非常复杂的语言和文化现象，把里面的思想、倾向、态度一清二白地变成整整齐齐的数码，绝非易事。但是，由于内容分析被看作定量分析，编码只是一个预备步骤，蕴含在编码中的“释义”活动往往没有得到研究者足够的重视，因此对其过程的介绍和交代也非常简单，甚至略过不提。类似的操作方式比比皆是，其原因并非研究者的疏忽，而是内容分析方法论对显性标示和隐性标示在数据生成程序上的关键区别关注不够，为了强调内容分析的量化特征，对释义性活动淡化、弱化。这样的倾向在政治文本的内容分析几乎无处不在。如朱江南与吕杰就国际媒体对中国六十周年国庆庆典报道的分析就涉及这样的问题。他们对每一篇新闻报道主题（是否涉及军事、经济、庆典本身等）的编码相对简单明了。除此之外，作者还试图对新闻的“启动效应”和“框架效应”（priming and framing effects）进行分析。两位研究者用一个0—4的categorical variable（分类变量）来测量这些效果，其中0表示非常负面，4表示非常正面，2表示中立。也就是说，编码者必定要依赖他对文字和语言的理解决定每一篇文章的effects（效果）究竟用哪一个数字来表现最合适。那么“正面”（3）和“非常正面”（4）之间的区别是什么呢？作者在文中没有给出明确解释。再比如，刘新胜与杨溢在对《人民日报》涉及美国的文章的分析中，对文章主题进行了编码。如果一篇文章涉及一个以上的主题，则由编码者决定“最着重讨论的主题”。但是文中没有解释这个“most discussed”的特点应该如何合理判断。是根据内容的长短？语气的轻重？还是在文章中位置的显赫与否？作者如果能对此类问题进行进一步解释，不但可以巩固论点，也为效仿者做出示范。

对释义性分析的弱化和淡化，不仅仅只存在于对编码的讨论和操作中。由于政治学研究大多需要对文本的政治意义进行分析和阐释，纯定量的、只对显性标示进行分析的研究有很大的局限性。对纯量化内容分析的主要批评就在于它完全不能涉及“内容的侧重点、语言的内涵以及文本从其社会文化环境和上下文中获得的意义”。由此，法兰克福学派指出，对定量分析的解释必然要涉及定性的、意义层面的内容，否则研究结论仅仅是一堆“乏味无趣的图表”。所以，如何弥补内容分析这种“先天性”的弱点是研究者在研究设计层面需着重考虑的问题。在中国政治研究的新近作品中，吉利（Bruce Gilley）和霍尔比格（Heike Holbig）就2003年到2007年中国学界对党的合法性讨论的分析，史天健与娄笛晴对《人民日报》报道中意识形态倾向的分析，朱江南与吕杰对全球媒体对六十周年国庆庆典的报道的分析，张善若对听证会代表话语策略的分析，于斌对政协提案内容和方式的解析，刘新胜与杨溢对《人民日报》关于美国的报道的分析等，都属于此类作品，其中既有建立在分类和编码基础上的量化分析，又着重于对政治事件、发展和现象的意义层面的解释。

在对隐性标示的分析中，释义性分析从数据生成这个上游步骤便开始发生作用。然而由于内容分析的量化方向，这一本质性特点没有受到足够的重视，可能引发关键性的误差。比如邵梓捷等对《新闻联播》从2003年至2013年政治文本中关于“国家主体角色”的研究。文中的量化分析显示，“全国、国家、中国、发展、人民、建设、合作”等词的出现频率很高。作者由此推论，“准确地说《新闻联播》使用的首要关键词显著地表现了对国家主体角色的认知”。然而这样的结论，在概念和数据层面都缺少支持。词频、词意与概念之间的关系无法从单纯的量化分析中得出，需要释义性分析来建立。若想要讨论国家的“主体角色认知”是什么意思、这些词汇的高频率出现如何展现了国家的主体角色认知，作者必须超越量化分析，对这七个词语的内涵进行进一步的定义、解释和讨论。量化分析的准确性无法直接建立数据分析结果与概念性、理论性的结论之间的联系。

内容分析的主要思路及方式方法关注文本中是否出现某种显性或隐性标示，并将这个标示的内容假定为不变。在此基础上，才可以进行分类与编码，因为编码就是一个“变异压缩”（variation reduction）的过程。这样的假设基本不考虑语言环境、上下文对标识意义的影响，内容分析因此被称为“前语言性”（prelinguistic）的文本处理方式。在大部分政治文本中这样的假设是不现实的，因为重要的政治文本不仅字字珠玑，而且“功夫在诗外”。其文字、论点论据以及各类修辞手法，不仅本身意义丰富多变，而且常常与文本之外的政治知识和文化环境遥相呼应。如方涛和罗平汉对党的文献中“现代化”一词的词义分析，即反映出该词作为形容词、名词和动词在不同政治时代中内涵的扩展和变化。我在对中国共产党十二大到十八大党代会报告的研究中也发现，在改革开放的三十年中，“人民”一词不仅使用频率节节攀升，其内涵和外延也迅速扩展、变化。如果对这样的意义变化不加以分析，而纯粹地观察这些词汇是否出现、词频是高是低，很可能会使研究结果浅显片面不准确，大大限制分析潜力。因此，研究者需要对文本中隐含层面的内容和意义进行分析，不仅必须要用到概括讲的释义性分析，而且也需要关注语言因素、使用语言学的相关工具来提高研究的准确性（详见话语分析一节）。

积极引入语言因素的尝试与由互联网时代应运而生的数据挖掘分析套路却颇有些水火不相容。互联网的出现使文本的数量、使用方便程度等方面都进入了新纪元。相应发展起来的内容分析新技术大致有两类：一类通过下载媒体、政府、组织在网上发布的文本获取原始数据，但是分类和编码过程是人工的，在本质上与传统的内容分析同出一辙（如大部分前文讨论过的例子）。另一类，以数据挖掘技术为基础的“text-as-data”的分析套路则主张通过计算机软件进行文本编码和分析，在文本分析中实现半自动化或自动化（fully automated content analysis）。研究项目中探索性的预备分析可以由人工进行，但最终的文本数据处理应该是全自动的。在这一领域中，“全自动文本分析中涵括的人工处理的成分，随着文本规模的增大，会逐渐减低到零”。

全自动文本分析就是把“字”和“词”等显性标示从语言中剥离出来，作为数字处理，进行统计性分析。门罗（Burt L. Monroe）和施罗德（Philip A. Schrodt）指出，“统计模型”和“语言模型”不可兼得。因为这种分析无法呈现字、词在语言中的相互关系，所以“此方法对有些研究问题有用，但是对于有些研究问题的局限性无法克服。比如对于国际冲突的分析，除了要知道一个冲突中双方是谁以外，也许还要知道‘谁先打了谁’”。要回答这个问题，研究者需要观察冲突双方的名字在文本中是什么关系，比如在一句话中，谁是主语，谁是宾语，这就需要对语法规则进行考察。这似乎使内容分析与下文要介绍的话语分析成为“鱼和熊掌”，不可兼得。但同时也应注意到学者们在这个方向的积极努力。如西蒙（Adam F. Simon）和塞洛斯（Michael Xenos）试图在认知科学关于“隐性语义分析”（latent semantic analysis）理论的基础上，对内容分析中的因子分析（factor analysis）进行改良。“隐性语义分析”理论认为，人类大脑对语言的处理和认知过程与因子分析的过程是类似的。他们据此设计了一套技术，通过用因子分析模拟人脑的认知和语言处理过程，由此分解出文本中不同的概念维度。但是，这一方法虽然从与语言认知相关的理论出发，但是仍不涉及语言学的概念和分析工具，本质上依旧是对显性标示进行的词频和因子分析之类的量化分析。题目模型（Topic Modeling）的方法则试图用不同的数据模型，通过捕捉词频、词与词之间的相关（co-occurence）与间距（proximity）等可量化的文本语言特征，将文本中隐形的“题目”（topic）提取出来。

内容分析方法明确定义数据框架，把分析对象从其语言和意义环境中剥离出来，通过分类和编码将内容量化，用统计分析来提高分析效率、增强数据的覆盖面。然而对量化分析的追求却在一定程度上误导了研究者，使他们忽视了内容分析操作中已有的定性的、释义性的成分，以及纯定量分析对文本分析的限制。此类分析最大的弱势在于它无法对字、词、句在文本内部通过语言规则进行的语义建构（intra-textuality）过程、和被分析文本与其他相关文本之间的意义关联（inter-textuality）等方面进行深入有效的分析，而这些正是政治文本获得意义的最重要的途径。现代语言学的发展对“意义”的解释打开了另一片天地，强调文本中的字、词、句，除了自身的内涵和外延以外，还具有它们的语言社区（language community）和话语社区（discourse community）所赋予的独特意义。在这些方面，建立在语言学基础上的话语分析就占有更大的优势和潜力。

三、话语分析：对意义建构过程的探索

话语分析不通过编码量化数据，因此往往被划分到“定性”研究一类。但这一角度和方法植根于近一百年来语言学的逐步发展，与以诠释学为基础、传统的“定性”分析也有显著区别。传统的结构主义语言学将语言看作人类独有的、“基因铸就”（genetically endowed）的一套认知能力。人类使用这一“透明的媒体”来“反映”和“记录”世界，它对社会现实不添也不减。在此理论基础上，语言学家们想要探知一套基于这种人类共有的语言能力的、放之四海而皆准的语法句法，即“普遍语法”（universal grammar）。然而与欧洲语系以外的语言和文化的接触为语言学家和人类学家开辟了新的视野。名噪一时的萨丕尔—沃尔夫（Sapir-Whorf）假设指出，不同的文化通过语言对世界的“切分”（carve up）方式是不同的。因此，语言不仅仅是人们用来描绘世界的工具，更是我们用来构建现实的手段。同时，这些由语言构建的现实也限制着我们对世界的思考。

虽然这一相当激进的“语言决定论”已经过时，但它对语言学的改变是革命性的。20世纪著名的语言哲学家维特根斯坦指出，语言是在使用过程中获得意义的。由此发展出来的功能语言学（functional linguistics）将语言的运用看作一种社会现象，在特定的政治、社会和文化环境中，因交流需要而被激发，并在此过程中获取意义。由此诞生的社会语言学专注于“语言与社会之间的关系、社会成员使用语言的方式方法与社会结构之间的关系”等课题。从这一角度进行的文本分析往往借助语言学，特别是语义学（semantics）和语用学（pragmatics）这两个分支里的概念、理论和分析框架，切入社会和政治话语的内部机理，对其话语策略、政治目的等进行考察。例如Rigstad在分析美国外交政策发展时认为，“布什原则”是美国为了实现单方面军事目的所制造的一套政治话语，在道德层面上与西方经典政治道德理论不符，从实际角度看也是有意识地只服务于美国的短期战略利益。

从维特根斯坦源起，又由奥斯丁和赛尔发展的“言语行为理论”（Speech Act theory），发展出了“意向意义”（illocutionary meaning）这个概念。该理论认为，说话者在使用语言的时候，也在施行一个行为。比如一对夫妇准备离开旅店去机场时，丈夫说：“出租车马上就要来了。”这句话的本意是出租车快到了，而其意向意义则是在催促妻子抓紧时间。“催促”便是这句话的言语行为。实际生活语言运用中的言语行为种类繁多。奇尔顿（Paul Chilton）和谢夫纳（Christina Schäffner）总结出政治话语中五种主要的言语行为类型：“叙述”（如对“现实”或“真理”的陈述）、“指导”（命令、请求）、“许诺”（许诺、威胁）、“表达”（赞美、责备）和“宣布”（宣战、宣布选举结果）。英国政治理论家斯金纳（Quentin Skinner）在他影响深远的The Foundation of Modern Political Thought中所作的努力，与言语行为理论异曲同工，认为政治思想研究不仅要讨论作者“写了什么”，还要探求他们“为什么要写这些”。斯金纳强调，每一个时代的政治现实都会凸显某些“危机”，让思想家们提出解决的方案，而这些思想就是他们的政治行为。马基雅维利当年的策略是通过巧妙地改变他在书中对当时主流意识形态的讨论，从而改变他自己的政治主张与主流思想之间的关系，由此能够“重新描述”（redescribe）和“重新定义”（recharacterize）自己的冠词，为其争取合法性。

这样，随着语言学从结构主义向功能主义转变，其分析焦点从“主意”（idea）到“行为”（act）的转移，我们对语言的理解也从由语言成分（字、词、句）按照语法规则组成的静态的“结果”，转变为涵括发言者的主观意图和文化、政治背景的意义制造过程。话语行为者运用语言中蕴含的资源和工具，有计划、有策略地实现他们的政治目的。于是，“运用中的语言”（language in use）就构成了“话语”。中国谚语“话有三说，巧说为妙”“见人说人话，见鬼说鬼话”，描述的就是这样的“话语实践”（discursive practice）和“话语策略”（discursive strategy）。在20世纪七八十年代，受欧洲左派政治思潮、后马克思主义，尤其是葛兰西（Antonio Gramsci）的“霸权话语”概念的影响，福勒（Roger Fowler）、霍奇（Bob Hodge）、克雷斯（Gunther Kress）和特鲁（Tony Trew）等人承前启后，发展出“批判性语言学”（Critical Linguistics），探索语言使用者如何运用语言来制造、维持和合法化政治和社会行为。这样的观点和视角在话语分析实践中的运用即是批判性话语分析（Critical Discourse Analysis，CDA）。从葛兰西的“霸权话语”（hegemonic discourse）中发展出来的理论和实证研究数不胜数，大都突出知识与真理的主观性和政治性，强调所谓的“知识”和“真理”都只是当时当地的霸权化构建。

用话语分析和批判性话语分析工具来研究中国政治文化的作品大致可以分为两类。第一类宏观地借助话语分析的理论框架，将语言看作话语行为者使用的社会和政治资源，分析话语中体现出的权力关系。与传统定性研究对政治文化和政治语言的大而化之、泛泛而谈类分析相比，这些新近研究在分析的经验性、精确度方面有很大提高，如韩乐（Le Han）对2008年奥运期间中国媒体渲染爱国主义的话语策略研究，苏晓波（Su Xiaobo）关于中国共产党如何建设和维护其霸权话语的研究等。这类研究的基本特点是使用了一些话语分析的概念，但其主要分析模式仍然是通过作者的主观解析完成的，很少或者没有使用语言工具。前文提到的斯特劳斯、孔书玉、华世平等人的研究也可以归入此类。

话语分析作为从语言学里发展出来的工具，强调通过语言学的概念和方法对文本的意义构建过程进行积极、准确的探测。然而，对语言工具的独特功能和力量，非语言专业出身的社会科学研究者在逐步的认识和学习当中，这些工具在研究实践中的应用程度也大不相同。因此，在概念和理论层面提及、讨论话语分析，而在分析中极少使用语言工具的现象很常见。在这里仅举一例。Yunya Song和Tsan-kuo Chang通过内容分析和话语分析剖析了中国共产党关于农村社会的新话语的诞生和发展。在内容分析部分，两位研究者对1997年到2006年的《人民日报》进行抽样，就每一段落中体现出的新闻事件的主要政治行为者、政治行为环境、时间地点、因果归咎和故事方向等方面进行编码，分析有关农村经济社会发展新闻中的行为主体的分类和比重，以及与相关变量的关系。

在话语分析部分，作者的关注点转向了这一新话语中的两套“释义性包装”（interpretive packages）——一个是“国家统筹下的共同富裕”（“common-prosperity-under-state-retribution” package），另一个是“技术挂帅的新工业化”（“technocratic neoindustrialization” package），并在此基础上解释话语主体——国家、政府、党、《人民日报》——如何使用这些词汇和概念。从方法论的角度需要着重强调的是，对这两套话语包装的提取不是通过具体系统的语言性分析来完成的，而是作者根据自己对文本的主观解读构建的。作者在一个图表中整齐有序地列出了两套话语中的关键词，但是这些关键词之间的逻辑联系、相互说明和呼应效果以及它们共同作用所产生的意义，从根本上来说都是作者超越话语数据和分析的主观解读。换言之，两位作者先从文本中摘出相关词汇，再以他们认为适当的方式重新组合，并在此基础上进行推论和理论化。在这一过程中，分析者仍然将话语成分——词汇、句子——从它们自身的语言和意义制造过程中剥离，又用自己的解释将它们重新构建起来，得出结论。Yunya Song和Tsan-kuo Chang的解读清晰强健，与这一段时期中国国家霸权语言的基本特征相吻合。但是研究方法的具体操作对主观释义的倚重仍然高于对话语分析工具的使用。因此，在话语分析研究中，哪些分析使用了语言学工具、使用到什么程度，而哪些分析更加倚重作者自己的释义性分析，都需要研究者更加明确、清晰地进行标示和讨论。

研究者近年来积极尝试，试图能够更加全面系统地将语言工具运用到中国政治文化研究中来，在这里我简单举例。吕行（Lu Xing）与西蒙斯（Herbert W. Simons）对中国共产党领导人在改革时代的“转型式政治修辞”的分析中，集中讨论了邓小平、江泽民、胡锦涛三位领导人如何将马克思主义原则和实用政治目的结合起来。他们从语用学的角度出发提出了三种解释：修辞需要（rhetorical requirements）、面临的政治障碍（kinds of problems that impede accomplishment）和政治文化中可供选择的话语策略（strategies available）。这项研究不仅描述了一种话语现象，并且从修辞学、语用学和论证理论的角度对某一种话语为何发展、如何发展进行解释。在研究实践中，我借鉴马莱斯基（Edmund Malesky）和苏勒（Paul Schuler）对越南议会代表发言的分类方法，试图使用“话语策略”这一概念对中国国内的一些听证会实录进行分析。这项研究将代表们的发言视作他们利用听证会的话语空间积极调动文化赋予的话语资源、主动使用“话语策略”来同政府对话，并取得主动权的一种政治话语行为。我将听证代表采取的话语策略分为“点头”、拥护、建议和挑战四类，在具体操作上使用“语言标示”（lexical marker）这一语言学分析工具，利用发言人自己的语言成分（如“我同意”“我反对”“我建议”等词汇）来对他们的话语策略进行编码。编码是内容分析的操作特征，但是在此研究中被“编”的却不再是主题、内容等内容分析的惯常研究对象，而是“话语策略”以及其中体现出的说话者与听话者之间的关系等语言学概念，从而将话语分析的概念理论与内容分析的实际操作方法结合使用。

四、结论

本文的主要目的是介绍诠释学、内容分析和话语分析这三种文本分析方法的学术渊源、分析思路、各自对“文本”这一研究对象的视角与假设，以及在此基础上发展出的分析方式方法。研究如何准确释义的诠释学历史悠久，现代诠释学的主要贡献是在社会科学知识论和方法论的框架下，巩固、澄清了释义性分析的研究性质和科学标准。内容分析研究者响应量化分析的时代号召，汲取最新的量化分析技术，力图通过将文本中内容、主题等方面的主要特征最准确地转化为量化数据。话语分析方法运用语言学的概念、分析工具来透视、解释文字中体现的政治与社会现象。三种方式在对文本数据的采集处理、分析角度方式等方面截然不同，能够达到的分析目的、能够回答的研究问题也自然不同。从这个角度看，大而化之地使用“文本分析”这个概念是不准确甚至是不正确的。为了精准起见，研究者应该在文本分析这把“大伞”下，更加深入地了解不同方法的特点和用法，根据自己具体的数据结构、研究目的、问题性质等情况，做出合适的选择，并且在文中对此进行有必要的解释说明。

由于文本分析方法论对这三个支流的类似和不同之处甄别不够，实践中自然会出现混淆甚至错误的做法，我在文中进行了简要说明。需要强调的是，这些问题的出现并非由于研究者自身的原因，而是因为这些都是行内普遍甚至标准的操作方式。通过对这些例子进行分析，我们认识到社会科学研究者对文本分析方法论的了解、认识、把握能力有待提高。文中的分析显示，建立在作者主观解释基础上的“释义性”分析，在当前的文本分析研究实践中普遍存在。如何将这样的主观性解释分析更有机、有效地与内容分析中的定量分析和话语分析中的语言分析相结合，从而更科学、规范地推动文本分析实践和方法论的发展，是我们在未来的研究中需要积极重视的一个课题。

本文的主要目的是介绍文本分析三种方法的“灵魂性”思路和视角。这三种分析方法的具体操作程序、模式都纷繁复杂，远不是一篇文章能够涵括的。对于既有研究中的问题，本文虽是“蜻蜓点水”，却也希望在文本分析方法理论、概念、操作化、测量、分析和推论等不同层面引起研究者的兴趣，进一步深入思考。下一步的研究需要更细致地透视、讨论现有欠缺的起因和发展，从而研究可能的弥补办法。另外，政治文化研究对语言学中的概念、理论和分析工具的运用才刚刚起步。在语言学的三个分支中，语义学与语用学对政治文化研究的意义尤其重大。如何最恰当、高效地运用这些学术成果来扩展政治文化研究的数据基础、增强我们的分析能力，都是未来研究中需要重视的问题。

文本解读的一些理论（三种文本分析方法知识论）

最新推荐

热门推荐