汉字编码标准GB18030-2022版,收录汉字87887个,比2005版增加17643个生僻汉字

汗青 整理

GB为国家强制性国家标准GB 18030《信息技术 中文编码字符集》是我国继GB 2312-1980和GB 13000.1-1993之后最重要的汉字编码标准。GB 18030的总编码空间超过150万个码位,为解决人名、地名等用字问题提供了方案,为汉字研究、古籍整理等领域提供了统一的信息平台基础。

那么,我国汉字编码标准有着怎样的发展历程呢?

1980年3月9日,国家标准总局发布了我国第一个汉字编码字符集标准《信息交换用汉字编码字符集 基本集》,即GB 2312-80,共收了6763个汉字及常用符号,其中一级汉字3755个,二级汉字3008个,奠定了中文信息处理的基础。

汉字编码对照表gb2312(汉字编码标准2022版收录汉字87887个)(1)

1993年12月30日,全国信息技术标准化技术委员会发布GB 13000.1-1993《信息技术 通用多八位编码字符集(UCS)第一部分:体系结构与基本多文种平面》。该标准采用ISO/IEC国际标准ISO/IEC 10646-1:1993,采用了全新的多文种编码体系,收录了中、日、韩20902个汉字,是编码体系未来发展方向。

1998年10月,信息产业部电子四所等技术人员组成标准起草组,提出了标准制定原则——与GB 2312信息处理交换码所对应的事实上的内码标准兼容,在字汇上支持GB 13000.1-1993的全部中、日、韩(CJK)统一汉字字符和全部CJK扩充A的字符,并且确定了编码体系和27484个汉字,形成兼容性、扩展性、前瞻性兼备的方案。

2000年3月17日,信息产业部和国家质量技术监督局发布GB 18030-2000《信息技术 信息交换用汉字编码字符集 基本集的扩充》,收录了27533个汉字

2005年11月8日,中华人民共和国国家质量监督检验检疫总局、中国国家标准化管理委员会发布GB 18030-2005《信息技术中文编码字符集》,收录了70244个汉字

2022年7月28日,国家标准化管理委员会、工业和信息化部、国家语言文字工作委员会在京联合召开《信息技术 中文编码字符集》(GB 18030-2022)强制性国家标准发布宣贯会。新版《信息技术 中文编码字符集》强制性国家标准将于2023年8月1日正式实施,共收录汉字87887个,比GB 18030-2005,增加录入了17643个汉字

《说文解字》收单字9353个,《康熙字典》收单字47035个,《汉语大字典》收单字60370个,目前收单字最多的辞书是《中华字海》,收单字85568个GB 18030-2022收字比《中华字海》多2319个。

据统计,汉字单字可达14万个,而常用汉字3500个就够用了,只有古人名、古地名、古籍整理、文字考古等会遇到一些生僻字。汉字字库的扩充,主要是为了特殊行业和研究人员方便,汉字改革永远不会走“返古”“返繁”的复古道路。

,