针对云南丽江村民因生僻字无法录入而改姓,华中师范大学语言与语言教育研究中心副教授沈威博士4月23日接受长江日报记者采访时解释:“生僻字的录入存在困难,主要涉及中文字符编码和输入法两个方面的因素。”
具体而言,一是不同的中文字符编码包含的中文字符数量差异很大;二是不同的输入法采用了不同的标准和方法收录中文字符,所以不同的输入法能输出的生僻字数量或多或少都有区别。
工作中常遇到生僻字
“现有的技术手段对生僻字有比较成熟的解决方案。”沈威常年从事现代汉语语法、中文信息处理等方面的研究。
沈威在工作中也常常遇到一些生僻字,比如云南丽江村民的“nia(四声)”姓,他会采用Windows自带的“专用字符编辑程序”造出这个字。在工作中,他将生僻字分为两种类型进行处理。
一种是字符编码里存在这个字,此时要打出这个字可以采用以下方法:
①手写输入法。可以使用鼠标或触摸屏在输入法的手写区域写出生僻字,然后选择正确的候选字。
②拆字输入法。比如可以在搜狗输入法中输入“u”进入拆字模式,然后根据生僻字的构字部件输入拼音或首字母,例如“䶮”可以通过“u long tian”(输入内容中的“ ”不必打出来)输出。
③符号插入法。可以在Word等文本编辑软件中,选择“插入”-“符号”-“其他符号”,然后在子集中选择“CJK统一汉字”,找到想要的生僻字并插入。
④拼音指南法。可以在Word等文档编辑软件中,选择“开始”-“字体”-“拼音指南”,给生僻字添加拼音注音,然后根据拼音输入。
一种是字符编码里不存在这个字,此时要输出这个字可以采用下列方法:
①使用Windows自带的“专用字符编辑程序”,通过输入生僻字的GBK码或者手动绘制生僻字的形状,这种方法比较方便。
②使用Photoshop软件,将构成生僻字的偏旁或部首分别打出,然后合并为一个字,最后输出图片。这种方法比较简单,但可能造出来的字不够美观。
③使用字体设计软件,如FontCreator,通过输入生僻字的Unicode编码或者手动绘制生僻字的形状。这种方法比较专业,可以生成字体文件包,形成自己的生僻字库。
生僻字会逐渐被消灭掉吗?
《信息技术中文编码字符集》(GB18030-2022)强制性国家标准将于2023年8月1日正式实施,《信息技术中文编码字符集》共收录汉字87887个,比上一版增加录入了1.7万余个生僻字。
“各地何时能执行到位,还将是一个漫长的过程。”沈威表示,该字符集可覆盖我国绝大部分人名、地名用生僻字以及文献、科技等专业领域的用字,但却不可能把我国所有的汉字以及少数民族文字都包括进去,因为汉字以及少数民族文字的总量是未知的。
沈威介绍,有些字可能只会出现在一些古籍、碑刻、方言中,而有些字可能是由于书写、印刷或扫描等原因造成的变体或错误,还有一些字可能是由于不同地区的历史、文化等因素而产生的差异。
沈威表示,把这些字都统一编码不仅需要大量的人力、物力和财力,还需要考虑到编码标准的稳定性、兼容性和可扩展性等问题。因此,可以说GB18030-2022是一个基本能满足各类使用需求的相对完善的解决方案,但并不是一个完美的解决方案。
生僻字通俗来讲指不常见的或人们不熟悉的字。对于生僻字的未来走向,沈威表示,生僻字的产生原因有很多,包括但不限于古代常用字的异体字、古代的口语或方言字、为了避讳或起名而创造的字等。生僻字在现代汉语中已不常用,有些甚至已经失传或难以考证。
生僻字会不会逐渐被消灭掉?沈威认为生僻字的数量会大幅减少,因为有些生僻字过于复杂和冷僻,给日常使用和传播带来了很多困难和麻烦,但是生僻字不应该被完全取缔,因为有些生僻字是中华文化的遗产,有着丰富的历史和文化内涵,值得保留和传承。不过,生僻字最终是否消亡,还需要看社会的需求和发展,尤其是相关部门和机构的规范和管理。
链接:
新的国家表述收录87887个汉字
据介绍,常见的字符编码有GB2312、GBK、GB18030、GB18030-2022、Unicode等。GB2312是最早的中国国家标准,它收录了6763个常用汉字和682个其他字符。
GBK是在GB2312的基础上扩展的,它收录了21886个汉字和图形符号,包括GB2312和BIG5中的所有汉字,以及CJK和少数民族文字。
GB18030是最新的国家标准,它收录了70244个汉字和字符,包括GB2312和GBK中的所有字符,以及繁体汉字、日韩汉字和CJK扩展A、B、C、D、E的汉字。
GB18030-2022共收录了87887个汉字,比GB18030增加了1.7万余个生僻汉字,覆盖了《通用规范汉字表》以及绝大部分人名、地名、文献、科技等领域的用字。
沈威表示,Unicode是一种国际标准,它试图为世界上所有的文字和符号分配一个唯一的编号。Unicode有多种编码方案,如UTF-8、UTF-16、UTF-32等。尽管强制性国家标准GB18030-2022包含的中文字符多达87887字,但是仍然有一些中文字符不在其编码范围内,这也导致了一些生僻字的录入存在困难。
长江日报记者杨佳峰
【编辑:丁翾】
更多精彩资讯请在应用市场下载“大武汉”客户端,未经授权请勿转载,欢迎提供新闻线索,一经采纳即付报酬。24小时报料热线:027-59222222。此文版权归原作者所有,若有来源错误或者侵犯您的合法权益,您可通过邮箱与我们取得联系,我们将及时进行处理。邮箱地址:kin0207@126.com
,