ascii编码和unicode编码（计算机中常用的ASCII码）

20世纪60年代，美国制定了一套字符编码，对英语字符与二进制位之间的关系做了统一的规定，这套编码被称为 ASCII 码，一直沿用至今。

ASCII（American Standard Code for Information Interchange，美国信息交换标准代码）是基于拉丁字母的一套计算机编码系统。它主要用于显示现代英语，其中共有128个字符。

标准ASCII码也叫作基础ASCII码，使用7位二进制数（剩下的1位二进制数为0）来表示所有的大写和小写字母、数字0到9、标点符号，以及在美式英语中使用的特殊控制字符。

其中：

0～31及127（共33个）是控制字符或通信专用字符（其余为可显示字符），如控制符：LF（换行）、CR（回车）、FF（换页）、DEL（删除）、BS（退格）、BEL（响铃）等；通信专用字符：SOH（⽂头）、EOT（⽂尾）、ACK（确认）等。

ASCII值为8、9、10和13分别转换为退格、制表、换行和回车字符。它们并没有特定的图形显示，但会依不同的应用程序，而对文本显示有不同的影响。

32～126（共95个）是字符（32是空格），其中48～57为0到9的阿拉伯数字。

65～90为26个⼤写英文字母，97～122为26个⼩写英文字母，其余为⼀些标点符号、运算符号等。

由于ASCII码只有128个字符，虽然可以表示所有的英文字符，但世界上还有很多其他的文字，ASCII码是无法表示的，所以需要一种更加全面的字符编码。

在介绍其他的字符编码之前，我们先来说一下一个计算机领域通用的字符集。

Unicode

Unicode（中文：万国码、国际码、统一码、单一码）是计算机科学领域中的一项业界标准。它对世界上大部分的文字系统进行了整理和编码，使得计算机可以用更简单的方式来呈现和处理文字。

Unicode至今仍在不断增修，每个新版本都加入了更多新的字符。目前最新的版本为2019年5月公布的v12.1，这一版本只新增了一个字符，即日本新年号的合字（上令下和）。

Unicode备受认可，并广泛地应用于计算机软件的国际化与本地化过程。有很多新科技，如可扩展置标语言（Extensible Markup Language，简称XML）、Java编程语言及现代的操作系统都采用了Unicode编码。

Unicode是一套通用的字符集，包含世界上的大部分文字，也就是说，Unicode是可以表示中文的。

有了Unicode 为什么还需要UTF-8

Unicode虽然统一了全世界字符的编码，但没有规定如何存储。这么做有如下考虑：

如果Unicode统一规定，那么每个符号要用三个或四个字节表示，因为字符太多，所以只能用这么多字节才能表示完全。

一旦这么规定，那么每个英文字母前都必然有2～3字节是0，因为所有英文字母在ASCII正码中都有，都可以用一个字节表示，剩余字节位置就要补充0。

如果这样，那么文本文件的大小会因此大出二三倍，这对于存储来说是极大的浪费。

为了解决这个问题，就出现了一些中间格式的字符集，它们被称为通用转换格式，即UTF（Unicode Transformation Format）。常见的UTF格式有UTF-7、UTF-7.5、UTF-8、UTF-16和UTF-32。

● UTF-8 使用 1 ～ 4 字节为每个字符编码。

● UTF-16 使用 2 或 4 字节为每个字符编码。

● UTF-32 使用 4 字节为每个字符编码。

所以我们可以说，UTF-8、UTF-16等都是Unicode的一种实现方式。

举个例子，Unicode规定了一个中文字符“我”对应的Unicode编码是“\u6211”，但是，在UTF-8和UTF-16等不同的实现方式下，这个二进制code的存储方式是不一样的。

UTF-8使用可变长度字节来储存 Unicode字符，例如ASCII字母继续使用1字节储存，重音文字、希腊字母或西里尔字母等使用2字节来储存，而常用的汉字就要使用3字节，辅助平面字符则使用4字节。

ascii编码和unicode编码（计算机中常用的ASCII码）(1)

内容摘自《深入理解Java核心技术》，作者是Hollis，张洪亮，阿里巴巴技术专家，51CTO 专栏作家，CSDN 博客专家，掘金优秀作者，《程序员的三门课》联合作者，《Java工程师成神之路》系列文章作者；热衷于分享计算机编程相关技术，博文全网阅读量数千万。