计算机编码知识梳理（计算机编码那些事儿）

哈喽，大家好！我是土豆，今天呢，我们来聊聊计算机编码那些事。

在开始之前，我想向大家介绍一下什么是编码。

编码呢说到底就是信息从一种形式或格式转换为另一种形式的过程，简单来讲就是语言的编译过程。也就是说用一种形式代替了另一种形式。

例如我们熟知的摩斯密码就是用两种基本信号：短促的点信号“·”（读“滴”）和保持一定时间的长信号“—”（读“嗒”）来对26个字母进行编码，从而实现了信息的编译过程。

计算机编码知识梳理（计算机编码那些事儿）(1)

莫斯密码

其实我们这里的计算机编码和莫斯密码相似，只不过我们这里采用了二进制数来对字符进行了编码。

由于我们每个人都可以制定自己一套（当然了这也叫编码），而如果我们大家都想彼此通信的话，就必须使用相同的编码规则，于是美国有关组织就出台了ASCII编码。（计算机最先是人家发明的嘛，这个可以理解）。

ASCII 码使用指定的7 位或8 位二进制数组合来表示128 或256 种可能的字符。标准ASCII 码也叫基础ASCII码，使用7 位二进制数（剩下的1位二进制为0）来表示所有的大写和小写字母，数字0 到9、标点符号，以及在美式英语中使用的特殊控制字符。

计算机编码知识梳理（计算机编码那些事儿）(2)

ASCII码

但是，随着科技的快速发展，这里就出现了问题：在英语中这些编码当然可以解决所用的问题，但是世界上语言那么多，其他的语言怎么办？

为了解决这个问题，我们对编码进行了两次扩编：1981年的IBM扩展字符集扩编和“ANSI字符集”扩编。

事实证明，别人是靠不住的，尽管进行了两次扩编，我国的汉字编码并没有得到很好的解决，于是我们便制定了属于我们自己的“编码”：GB2312-80 标准和GBK 编码标准。

GB2312-80 是 1980 年制定的中国汉字编码国家标准。共收录 7445 个字符，其中汉字 6763 个。GB2312 兼容标准 ASCII码，采用扩展 ASCII 码的编码空间进行编码，一个汉字占用两个字节，每个字节的最高位为 1。

但是这次编码并没有覆盖我们所有的汉字，于是我们在1995年我们又制定了GBK 编码标准。这次编码我们兼容了GB2312、GB13000-1、BIG5 编码中的所有汉字，使用双字节编码，编码空间为 0x8140～0xFEFE，共有 23940 个码位，其中 GBK1 区和 GBK2 区也是 GB2312 的编码范围。收录了 21003 个汉字。

不过这次编码虽然汉字达到了2万多个，但对于我国的藏文、蒙古文并没有纳入进去，为了有效解决这个问题，我们又对编码进行了扩编，这次扩编包含多种我国少数民族文字（如藏、蒙古、傣、彝、朝鲜、维吾尔文等多个文字，光是汉字就有七万余个，这就是GB18030编码标准。

至此，我们的问题才得到了有效的解决。

不过呢，为了各国的交流，我们又弄出了一个新的标准，即UniCode。

统一码（Unicode），也叫万国码、单一码，是计算机科学领域里的一项业界标准，包括字符集、编码方案等。Unicode是为了解决传统的字符编码方案的局限而产生的，它为每种语言中的每个字符设定了统一并且唯一的二进制编码，以满足跨语言、跨平台进行文本转换、处理的要求。

我们常用的UTF-8就属于统一码的一种。

好了，今天我们就先分享在这里，由于我也是刚刚接触不久，所以有些东西可能介绍的不太准确，欢迎大家来指正！

计算机编码知识梳理（计算机编码那些事儿）

最新推荐

热门推荐