符号组合

每一门自然语言都有自己的特色与无数的细节,具体的举例与说明总是容易产生争论。对于本节所要给出的结论,素材已足够充分。在命名的基础上,如果只用一个词汇来说明自然语言最根本的机制,本书认为会是“组合”一词,这其实也是当前所有符号使用的基本机制。对自然语言的使用,语序也是会利用到的因素。“狮子吃老虎”与“老虎吃狮子”,这二个句子成分相同,但意思不一样的,由此,“组合”也经常说成“排列”。表达的输出,每一成分只能由特定的语法实体占据,在英语中,句子各成分的形态还需要保持一致,由此“组合”也经常说成“配列”。从这一用法开始时的状况,以及所有符号使用的整体状况,本书还是使用“组合”一词。

言语活动输出单位是语句,组合的观点意味着语句应该是可以分解的。语言学家经常用直接成分分析法对语句单位进行层次、结构、成分的分析,效果是线性的字符串语句可显示为树形的展开,叶子结点为一个个词汇。直接成分分析法用其创始人美国语言学家布龙菲尔德Leonard Bloomfield,1887.4-1949.4)所举的例子,Poor John ran away这一句子最终分析为(((Poor)( John))((ran)(away)))四个单词。拆分的过程如下:

1.2的特殊符号(3.2.3符号的组合2)(1)

(图3-1:句子的直接成分分析)

直接成分分析又称为二分法。在本例中,句子首先二分为:(Poor John)与(ran away),这样划分的理由是John替换Poor John,ran替换ran away,语句仍然成立。然后Poor John二分为(Poor)(John);ran away二分为(ran)(away)。从常识我们也能知道:每一次表达,所发出的声音可以拆分成多个不同的音段;书写出的语句,最终可拆分为多个不同的字或词。困难在于怎么拆分。

创造更多的媒介形态

语言面对的核心问题是其要表现的内容是无限的。我们不可能像动物那样,为每一个需要表达的内容直接构造一串声音或其他媒介形式,并且表达不同内容的声音或其他媒介形式相互间没有什么关系,它们各自独立地存在,每次的使用都是一个独立的操作。如果要描写的是自然现象或社会事件,它们随时发生,不断重复,同类的现象或事件每次出现又都不尽相同。如果只有命名的方式,那将会是记忆上的灾难。

符号的组合最初的发生可能只是偶然的:把二个声音放在一起说出来,直观上很容易联想到组合意义。一旦这种方法被触发,对其使用可能性的尝试就不会停止。符号组合方式的系统使用,形成与意义互配的一致关系,就会产生进一步的规则,主要是今天所说的语法。各种自然语言的格局是由对符号语法实体与组合规则的选择塑造的。各种自然语言的语法主要是创造出一维时空里符号线性组合的规则性,使自然语言的使用成为可能。

符号组合的使用方式使我们可以以有限的基础符号构造出更多的符号媒介形态来表示更多的意义。有了组合的方式,我们就可以给各种事物的类别赋予名称,利用组合的方式来指称子类别,如“吃草的动物”。也可以对类别下的某一具体事物通过组合符号来指称,如可以用“距离太阳最近的行星”来指称水星。一个家族从祖先x、y开始,理论上其绵延不绝的后代都可以由“儿子”“女儿”二个词,再加上序数词以递归的方式来指称,如:第一(儿子(x、y)),、第二(女儿(x、y))、第二(女儿(第一(儿子(x、y))))、第一(儿子(第二(女儿(x、y))))……从使用的角度,对我们没有特别意义的子类或实例,都可以采用组合来指称,避免直接命名。多数的自然语言,对于动作、关系、属性等要素,我们都只是在类别上命名,在组合中直接应用这些抽象的符号,并通过上下文语境得到具体语义。这形成一个重要的分工:给各种要素的类别赋予名称,通过组合来描写各要素参与的具体现象或事件。

一门具体的自然语言有选择权,不一定按照上面描述的方式使用。只是不这样选择,那它就需要其他方式来达到同样的效果,这并不容易想象。英文与中文有着明显的不同,从组合性来分析,它们又有着太多的相似之处。组合的方式也特别适用对不稳定现象与事件的描述。对于汉语,构造新的汉字实际已不太容易,新的构造或者太复杂,或者与已有汉字相互区别上很难有清晰的辨识度。有了组合的方法,我们就可以跨过此局限,通过汉字组合出新词来满足使用上的需要。组合方式就是目前自然语言的表现力所在。

规则

人类的婴幼儿在开始学习说话一段时间后,就会不断给父母带来惊喜,幼儿会时不时说出父母未预料似乎也未教过他的话语。小孩会在所有的环境中学习,积累一定的样本后,小孩可以从所学到的语句举一反三地组合出新的语句。幼儿对母语的学习显示语言是有规则的,语言的习得就是能够自由地运用这些语言规则来组合所掌握的语言素材,表达自己的所想。

今天,对语言规则的总结主要体现为语法知识。语法主要是抽象出结构来描述组合的规则,这是一种相对容易的做法。英语的语法经常区分为词法与句法。词法主要研究的是词的结构,如词缀的附加方式,词的内部变动,词的复合方式等,句法部分主要研究语句结构,如句子的构成成分,语序等。对汉语来说,一些学者认为:从初级语法实体到最后的复合语句,汉语都是应用同样的结构进行组合。除了英语与汉语外,还有数千种自然语言,它们的组合规则又各自有着自己的方法体系与特色。

无论什么学派,目前对语言语法规则的总结都是不充分的。研究最多的语言——英语,在计算机理解自然语言以及机器生成自然语言语句的研究中,总能发现总结出的规则不够,还需不断补充。也不太确定能否补充到完整,这样的研究路径目前也不受追捧。自然语言复杂且不规范,规则之外总有例外,细节性的规则也容易忽略。最关键的,自然语言是表义的系统,语言里的组合会受到语义的牵引,自然语言在语法侧面本身并不自足。人类语言不是静态的,而是在不停演化,其在时间某一截面上所呈现的规则性,本质上没有物理学规律那样的客观与确定性。就像其他的人类制度一样,语言是带有人类社群主观选择的产物,所谓约定俗成。

层次

本书采用一种层次方式来解释自然语言的组合物理上是如何发生的,前面二节已分别就英文与中文进行了这样的解释,现在我们可以合并这二节的内容做一个说明:

5句子(包括:小句、单句、复合句)

4复合词/词组

3字/词(包括基础字、词、合成词、派生词)

2语素/偏旁

1视觉构件(字母、笔划)

视觉构件层次以上,每一层次的语言单位为不同的语法实体。2至4层的语法实体中,除了词组外,其他固定组合的语言单位都可视为通过命名得到。在语素或偏旁上组合出的语法实体是一种直接的命名,其他的视为一种组合命名。总得来说,命名也会用到组合的方式。词组,或者可重复出现的更大语言单位是否视为一种组合命名,更多也只是一个定义问题。分层机制实现了表达形式潜在数量几何级数的增长,自然语言到了语句一层,可组合出的形式是无限的。这可以让我们更容易应对所要表现内容的无限性。

前面讲到上述分层机制所呈现的汉语与英语的相似性,有必要再强调一下二者的不同。符号的组合是构造更多的符号媒介形态来表示更多的意义。在形成系统的组合规则时,英语的语素或词缀,带来形态上的变化,标识了语言单位的类别或语法功用,并进一步规范出组合时的不同结构。这表示英语更主动地创造并利用了更多符号上的物理特征。具有同样效果的还有英语比汉语更丰富的连词、代词与介词。它们的使用使得英语的使用更加结构化且用法也更加地外显,语法总结也相对容易,至少相对于汉语是这样。汉语里的字、词并没有什么特征的标识,也无形态的变化,能利用的物理特征主要是虚词与语序。汉语里组合经常称为以意合,即需要通过意义来理解结合,语法的总结与描述也就变得困难。不能确定的是这种语言上的不同是否带来心智取向上的一些差别,比如对认知符号化偏好。

使用分层的方式,我们可虚拟出一种让语言系统尽量经济的模型。我们先忽略第1、2层次的内容,然后重新定义语法实体的层级。我们把字或词作为0阶的单位。把0阶的单位通过组合、复合(后一节会讲到)得到的单位作为1阶单位。把0阶、1阶的单位通过组合、复合得出的单位作为2阶单位,以此类推。整体最好是有5阶层级,最高一阶是表述层。阶层系统应该这样构造:阶层数越低,其语法实体的数量越少,其语法单位统计意义上使用频率越高。从低阶层到高阶层,组合的规则是一样的,即同样的规则在各个阶层之间通用(注:汉语基本做到了这一点),且规则数量越少越好。每一阶的单位加上表述性都可成为表述层级的语句。如果需要,表述层级可再附加尽量少的规则。设计出这样的系统,学习记忆的负载将最小化,语言的使用也可更高效。只是这种设计的现实意义不大。自然语言是一种意义的发生系统,比如说词汇的出现更多是由人类的认知决定的,不单是语言上的设计。组合的规则同时也兼有意义模式的作用,不可简单地增加或弃用。另外,语言是一种文化的载体,惰性是其特征。语言也经常类比为一种制度,制度的特性是各个方面的此消彼长,比如减少某些层级上命名词汇的数量,反过来不一定能控制分层的阶数,即在一个向度的强化就可能弱化另一向度。

在句子层次以上按习惯还可以划分成如下的层次:

9丛书

8分册(书)

7章节

6段落(也称:句群)

这些层次也称为语篇层级,这一范围内没有对应的语法规则,也不再形成某些类别的语法实体。虽然也能看到一些关于句群的观点,目前这些语言学观点说服力有限。

递归

递归的使用在自然语言符号组合时很常见,这使自然语言语法实体的分布并不是典型的层次分布。在所有的符号使用中,递归都是一个关键的方法。同样的一些规则,有了递归的方式,语言的生成能力就可上升到一个新台阶。

递归一词在自然语言里的用法与在软件里的用法是不一样的,后者是指函数或过程在内部又调用了自身;自然语言里主要指结构上的嵌套使用。我们先举个例子,比如说这一句:“今年山东产的新品种苹果”,可以分析为(今年(山东产的(新品种(苹果))))就是偏正结构的三次复加应用,第一次是(新品种(苹果)),第二次是(山东产的(新品种苹果)),第三次是(今年(山东产的新品种苹果))。递归结果是大结构里套着子结构,子结构里套着孙结构……父、子、孙的结构类型可以是一样的,也可以是不一样的。递归使用方式的出现也使“组合”一词变得不充分,我们还得加上“复合”一词,表示通过递归方式进行的组合。

离散与重用

前面论述中包含的一个重要概念是离散性。从意义的角度来说,基础词、合成词、复合词、甚至词组,它们是离散存在的。这些语法实体可作为一个单位参与不同的组合,就如积木游戏里的木块一样。对于外在的观察者,离散性并不是一开始就明显的事实,说话时人的发音是连续的,语言分析中,断句与分词也一直是个难点。

与离散性相关的另一个重要概念是重用性。重用性意味着一个语法实体可以重复地参与不同的、通常是更上层更大的语法实体的组合,重复的次数不受限制。语言学家主要就是通过重用性分析,从语言流中分离出语言单位。重用性本身是塑造语言面貌的重要驱动力。在一次具体的表述中,按需要我们把二个单位A与B排列在一起,后来发现其他的很多表述中A与B也被排列在一起,那么我们会倾向于认为AB是一固定的组合,并将其作为一个语法实体,如作为一个复合词。扩散地,如果C的应用格局类似于A,D的应用格局类似于B,也可观察到应用中CD的组合,那么我们可能尝试将CD作为类似于AB这样固定语法实体的可能。反过来的过程也存在,如果AB的重用性太差,或语言整体风格上的转向,AB作为一个固定语法实体就可能被取消,还原为A与B的临时组合。离散性与重用性不是对称的,这里的离散性是指用法上作为一个整体的那些语法实体,重用性可以指这些语法实体,也可包括更大的语言单位,如习语等。

离散性与重用性隐含着语法实体的同一性要求:相同形式的语法实体使用中始终是同一单位。这是从语法实体的意义来说的,意义角度每一语法实体可视为一个统一的整体。对汉语这样的孤立语言来说,同一性从心理到物理都是成立的。汉语里的一个语法实体在使用中不会发生形态上的变化,汉语里的组合都是纯机械的,仅仅把语言单位前后排列在一起。对英语这样存在形态变化的语言,事情就没这么明显。同一词不同时态上的变化,是否还可视为同一单位?这是个有争论的问题。英语里的句子要求变换各成分的形态以保持相互的一致,这样的组合也有了“化学”的性质。为避免混乱,理论上经常把同一形式具有多种意义的语言单位区分为不同的语法实体,比如一个多义词看作多个词。即便如此,同一语法实体在不同的组合使用中,我们仍可感受到其意义或功用上存在细微差别,只是这种次一级的区别不影响整体上的统一性。

组合与意义

符号的使用一旦形成规则,就会带有游戏的性质。我们可以说出或写下这样的语句:“三足兽展翅飞翔,回到了未来”;“暗物质在时空之外闪耀着黑色的光芒”,这不是我们见过的真实景象,但语句合乎语法,可以被理解。这是一个重要的特征,显示出自然语言虚拟、游戏的性质。言语不只是被动地由内容决定,它也受语言本身机制的驱动,可以主动地创造内容。这对我们文明意义深远。从实用的方面来说,人类的活动需要事前计划的能力;商品的生产需要先进行设计;理论认知多从假设的前提开始,等等。精神生活的其他方面,情况同样如此。祭祀、宗教、神话,礼仪等,所有这些活动中,都依赖于符号虚拟构造,这里符号包括且不限于自然语言中的符号。往坏的方向说,在期望得到真正理解的努力中,虚拟的自由也经常让我们陷入不知所云中。符号上不受眼前事实约束的积极组合,可以与人类心智上类比、联想、想象一类的发散性思维相配合。历史地看,人类心智这一方向的能力,可能因为有了符号的出口以及语言机制的配合而变得更活跃。

,