文字识别和处理技术（互联网时代的文字错讹）

作者：苏芃（南京师范大学文学院副教授），我来为大家科普一下关于文字识别和处理技术?下面希望有你要的答案，我们一起来看看吧!

文字识别和处理技术

作者：苏芃（南京师范大学文学院副教授）

近日，在网络媒体上读到一篇学术论文，其中引用《大唐新语》“终南捷径”的典故说：“（卢）藏用指终南山谓之曰：‘此中大有佳处，何必在远！’（司马）承祯徐答曰：‘以仆所观，乃仕宦快捷方式耳。’”继而搜索“终南快捷方式”，“百度汉语”里竟然收有这一词条，释义依据即是《大唐新语》。“终南快捷方式”显然是“终南捷径”之误，这个错讹在许多严肃的学术著作里屡见不鲜，叶圣陶先生1914年发表过一篇文言小说《终南捷径》，也被有些研究者误作《终南快捷方式》。

究其原因，这一错误的产生与汉语词汇的繁简转换有关。由于计算机专有名词shortcut在内地和港台的翻译不同，内地译作“快捷方式”，港台译作“捷径”，因此在对这类译词进行繁简转换时，即使上下文不涉及翻译用语，也会出现繁体字“捷徑”变成简体字“快捷方式”的现象。

一

时值毕业季，在审读各类论文时发现，除了单个汉字繁简转换不对应的常见错误（比如“皇后”误成“皇後”、“千里”误成“千裏”），整个词语转换时发生的错讹也大量存在，其中“终南快捷方式”这类由繁转简的讹变相对较少，更多的是由简转繁时带来的讹误，如：资料→數據、信息→資訊、申请项目→申請專案、数字化→數位化。更有甚者，如海内存知己→海記憶體知己、卜算子→卜運算元、途中奔驰→途中賓士、鲁隐公元年→魯隱西元年。“资料”变成“数据”、“信息”变成“资讯”还并不影响文意，但“海内存知己”变成“海记忆体知己”就会让一般读者感到莫名其妙。这些错误的发生可归因于内地与港台对同一事物的称名不同，尤其涉及译名分歧最多，于是按词繁简转换时就会出现错误的关联。类似现象，江庆柏先生《电脑自动转换中文简繁字产生的问题》（《古籍整理出版情况简报》2014年第1期）一文已有揭示，但未引起足够重视，各类出版物中繁简转换错误层出不穷。

实际上，互联网时代的文字错讹，除了繁简转换之误，还有不少新的衍生类型。例如，因电脑、手机输入法产生的错讹。现今最常用的是拼音输入法，由于输入拼音后在候选项里会有多组备选字词，在选取时因操作不慎或者判断失误，会导致文本中音近讹字的出现。同样，使用形码输入法，如五笔字型输入法，以及手写输入法等，会导致形近讹字的出现。

此外，还有一类非常特殊的错讹，因九宫格输入而产生。九宫格是手机拼音输入法最常用的一种键盘布局，将ABC……XYZ等26个字母分布在8个键位上，这样一来，比如拼写“早上”和“晚上”是完全相同的键位，在备选词里又毗邻，容易导致“早”“晚”混用的情况，这类不涉及汉字形音义关系的错误关联在传统书写中不会发生。

再如，因OCR（Optical Character Recognition，光学字符识别）产生的错讹。OCR的原理就是通过扫描纸本等载体上的文字，确定其形状，然后根据计算机程序进行匹配识别转译成字符。简而言之，就是把图像上的文字转换成文本字符。OCR软件在许多领域应用广泛，如果识别的对象本身是规范的排版文本，识别率非常高，人工校读也简便易行。但是在涉及古籍文本时，就容易发生形近而讹，加之人工校读不仔细，会遗患无穷。比如几年前，在全国各地售卖糖炒栗子的包装上，常会看到板栗简介中援引《诗经》的“树之棒果”，“棒果”是“榛栗”之讹，通过查检发现，这可能是某篇学术论文在OCR时发生的错误，导致网上关于板栗的简介以讹传讹，最终传播到了大众生活中。

二

汉语文献的文字讹误类型，以形近而讹和音近而讹为主，从文字的书写主体即人自身来看，形近而讹主要与视觉判断有关，音近而讹主要与听觉判断有关。

笔者在以往的研究中还发现，书写对象的特点也会带来一定的影响。比如汉字中形声字数量庞大，尤其进入楷书阶段以后，形声字比例大增，到了南宋已占汉字的90%以上，大量形声字的存在，使得同一声旁且形旁相近的文字最易发生讹混。如“杨（楊）”与“扬（揚）”，皆从“昜”声，而形旁“木”与“扌”相近，整个字形尤为相似，且读音相同，字义也多存相关性，于是在书写与传抄过程中，极易发生异变与混同。汉语中的讹字、异体字、通假字的孳生往往与形声字这个特性有关。如今电脑拼音输入法产生的错误，也是这一历史问题的延续与变体，有时看似操作不慎，其实是因为受到形声字这一特性的干扰。再者，汉字的结构特点与书写习惯也会影响文字的正误，如古人直行竖写，就会发生《战国策》中“触龙言”被写成“触讋”的错误。

可见，传统文字错讹的原因主要在两个层面：一是书写主体（书写者）判断疏失，一是书写对象（汉字、文本等）特性干扰，但是前文例举的错讹“终南快捷方式”、“早”“晚”混用、“树之棒果”等，已超出了这两个层面，它们有个共同之处，都和新型的书写媒介有关。无论是繁简转换，还是九宫格输入、OCR文字识别，错误的发生，都在这些中间环节。这让我们意识到，互联网时代书写主体和书写对象之间还存在着一个机器智能的媒介，新型文字错讹本质上是机器智能带来的副作用，要化解机器智能的不足和局限，只有不断提升技术工具性能，并且增加人工干预。

三

面对新型文字错讹，总体而言，要大力发展信息技术，如人工智能、大数据、构建知识关联来解决新时代的新问题。以前文例举的几种错讹类型而言，如繁简转换，可以在word软件里关闭“转换常用词汇”，只按字转换，不按词转换。由于一个简体字对应多个繁体字，由繁转简时，一般较少出现讹误，这种方法能够有效规避“終南捷徑”转成“终南快捷方式”的问题。但是由简转繁，这种方法又会带来不少繁简单字不对应的错误，必须辅以严格的校对。另一方面，需要通过更新技术手段解决词汇在转换过程中带来的关联错误，比如在计算机中建立繁简词表，并标明具体对应的时间与地域信息，如是中国古代的繁体字词，还是港台当代的繁体字词，进而构建历时性的繁简词库与共时性的繁简词库。至于九宫格输入、OCR文字识别等新型错讹，目前除了技术革新，比如基于大数据的聚类分析，恐怕还得依靠人工校正。

当然，最彻底有效的规范手段，是加强语言文字知识的普及教育，从文字使用者角度树立规范与责任意识，防患于未然。

《光明日报》（ 2019年03月02日 12版）

文字识别和处理技术（互联网时代的文字错讹）

最新推荐

热门推荐