通俗的讲什么是unicode（看这一篇就够了）

无论是用Python还是其它语言，处理字符编码都是一件极其痛苦的事情。我们无法忘记被UnicodeDecodeError和UnicodeEncodeError支配的恐惧。本文将以Python3为例，带你了解Unicode的基本概念，以及字符串编码解码的工作原理，让你从根本上理解字符编码。

首先，我们来看一看什么是字符编码。我们知道，计算机里所有的信息都是以数字的形式来表示的，字符也不例外。要想表示一个字符，首先要把它转换成对应的数字。

最简单的字符编码就是大家耳熟能详的ASCII码。ASCII码能够表示127个字符，它们包括：大写字母，小写字母，标点符号，空格和一些非打印字符。每一个字符都对应一个代码点（code point）。我们可以认为一个代码点就是一个整数。ASCII码中包含的字符和它们对应的代码点范围如下：

通俗的讲什么是unicode（看这一篇就够了）(1)

整个ASCII表包含128个字符。没有出在这张表里的字符无法用ASCII编码来表示。

Python的string模块里定义了完整的ASCII字符集

通俗的讲什么是unicode（看这一篇就够了）(2)

我们可以在代码中直接引用这些常量

通俗的讲什么是unicode（看这一篇就够了）(3)

ASCII编码非常简单，而且能够表示所有英文字母和常见符号。但是这样就够了吗？当然不是。如果我们想在计算机中表示一个汉字或者想要表示一个日语的假名该怎么办？很显然，只有128个字符的ASCII码是远远不够的。这就是Unicode产生的原因。

其实，Unicode和ASCII码的目的是一样的，只不过Unicode所包含的字符要远远多于ASCII码。事实上，Unicode最多可以容纳1,114,112个code point。把世界上所有语言的文字和符号加起来应该也够用了。比如说汉字“我”在Unicode中的编号是6211。为了与ASCII码兼容，Unicode规定，前128个字符与ASCII码是相同的。所以一个不大于128的code point所代表的Unicode字符与ASCII码相同，而超过128的字符则为ASCII无法表示的。

由于Unicode的字符集太过庞大，因此，它无法像ASCII码一样，用一个字节就可以表示。所以，Unicode势必要用多于一个字节来表示一个字符。这时就遇到一个问题，那就是在计算机进行读取的时候，它怎么知道那几个字节是属于一个字符的呢？比如，有一串字节数据“0xaa 0xbb 0xcc 0xdd 0xff”，我们怎么知道哪几个字节组合在一起来表示一个字符呢？那么就需要一种约定，来告诉我们如何把code point转换成字节流，或者反过来。这就是编码和解码。

既然是约定，那就意味着可以用不同的方法。事实上，最常用的编码方式是UTF-8，除此之外还有UTF-16，UTF-32等。由于篇幅有限，这里就不再展开每种编码的具体细节了。大家只需要知道，不管是什么编码，他们都是用来实现一个code point和一串字节流之间的转换的。

在Python3中，str类型可以用来存储可读的Unicode文本，而bytes则用来存储二进制数据。字符串编码和解码的过程就像这样

通俗的讲什么是unicode（看这一篇就够了）(4)