ASCII(American Standard Code for Information Interchange,美国信息交换标准码)

一句话:ASII表解决了文本如何输入到计算机,并予以显示的一个字符到二进制的映射表

美国标准化组织就出台ASCII编码,这是个美国标准。它统一规定了各种文本符号用哪些二进制数来表示。用于基于文本的数据。解决了西文字符(拉丁文)编码标准,它已被国际标准化组织(International Organization for Standardization, ISO)定为国际标准,即ISO 646标准。适用于所有拉丁文字字母。

标准ASCII 码也叫基础ASCII码,共使用了8位。不过需要注意的是:

使用低7 位二进制数来表示所有的大写和小写字母,数字0 到9、标点符号, 以及在美式英语中使用的特殊控制字符。

高第八位是用作奇偶校验位。一般分奇校验和偶校验两种。

奇偶校验用于在通信过程中进行数据传送的时候,发送方发送数据时,接收方通过该位是否为1来判断否有传输错误。如果有,请求发送方重发等底层处理。

所以真正有意义的位数是低7位。

编码内容:

ascii是什么码怎么来的(ASCII码是干什么的)(1)

ANSI 标准ASII对照表(16进制)

头两行是控制字符或通信专用字符(这些字符不在屏幕上显示)。

0 – NUL – NUL l 字符 / 空字符

NUL 字符被用于 C 语言中,字符串的终结符,当一个字符串中间出现 NUL / NULL ,代码里面表现为 /0 ,的时候,标志着该字符串的结束。

1 – SOH – S tart O f H eading 标题开始

如果信息沟通交流主要以命令和消息的形式的话, SOH 就可以用于标记每个消息的开始。

1963 年,最开始 ASCII 标准中,把此字符定义为 Start of Message ,后来又改为现在的 Start Of Heading 。

现在,这个 SOH 常见于主从( master-slave )模式的 RS232 的通信中,一个主设备,以 SOH 开头,和从设备进行通信。这样方便从设备在数据传输出现错误的时候,在下一次通信之前,去实现重新同步( resynchronize )。如果没有一个清晰的类似于 SOH 这样的标记,去标记每个命令的起始或开头的话,那么重新同步,就会导致混乱。

2 – STX – S tart O f T ext 文本开始

3 – ETX – E nd Of T ext 文本结束

通过某种通讯协议去传输的一个数据(包),称为一帧的话,常会包含一个帧头,包含了寻址信息,即你是要发给谁,要发送到目的地是哪里,其后跟着真正要发送的数据内容。

而 STX ,就用于标记这个数据内容的开始。接下来是要传输的数据,最后是 ETX ,表明数据的结束。至于中间具体传输的数据内容,取决于采用的传输协议, ASCII 规范不去定义。格式见下表:

不过,发展到今天,在很多协议中,也常见到,一个固定长度的帧头,后面紧接着就是数据了,而没有所谓的帧头结束符之类的东西去区分帧头和数据。

4 – EOT – End Of Transmission 传输结束

5 – ENQ – ENQuiry 请求

6 – ACK – ACKnowledgment 回应 / 响应

7 – BEL – [audible] BEL l

在 ASCII 字符集中, BEL ,是个比较有意思的东东。因为其原先本意不是用来数据编码的,于此相反, ASCII 中的其他字符,都是用于字符编码(即用什么字符,代表什么含义)或者起到控制设备的作用。 BEL 用一个可以听得见的声音,来吸引人们的注意,其原打算既可以用于计算机也可用于一些外围设备,比如打印机等。 C 语言里面也支持此 BEL ,用 /a 来实现这个响铃。

8 – BS – BackSpace 退格键

退格键的功能,随着时间变化,意义也变得不同了。

起初,意思是,在打印机和电传打字机上,往回移动一格光标,以起到强调该字符的作用。比如你想要打印一个 a ,然后加上退格键后,就成了 aBS^ 。在机械类打字机上,此方法能够起到实际的强调字符的作用,但是对于后来的 CTR 下时期来说,就无法起到对应效果了。

而现代所用的退格键,不仅仅表示光标往回移动了一格,同时也删除了移动后该位置的字符。在 C 语言中,退格键可以用/b 表示。

9 – HT – Horizontal Tab 水平制表符

ASCII 中的 HT 控制符的作用是用于布局的。

其控制输出设备前进到下一个表格去处理。而制表符 Table/Tab 的宽度也是灵活不固定的,只不过,多数设备上,制表符Tab 的宽度都预定义为 8 。水平制表符 HT 不仅能减少数据输入者的工作量,对于格式化好的文字来说,还能够减少存储空间,因为一个 Tab 键,就代替了 8 个空格,所以说省空间。

对于省空间的优点,我们现在来看,可能会觉得可笑,因为现在存储空间已足够大,一般来说根本不会需要去省那么点可怜的存储空间,但是实际上在计算机刚发明的时候,存储空间(主要指的是内存)极其有限也极其昂贵,而且像 ZIP 等压缩方法也还没发明呢,所以对于当时来说,对于存储空间,那是能够省一点是一点,省任何一点,都是好的,也都是不容易的,省空间就是省钱啊。

C 语言中,用 /t 表示制表符。

10 – LF – L ine F eed 换行

LF ,直译为(给打印机等)喂一行,意思就是所说的,换行。

换行字符,是 ASCII 字符集中,被误用的字符中的其中一个。

LF 的最原始的含义是,移动打印机的头到下一行。而另外一个 ASCII 字符, CR ( Carriage Return )才是将打印机的头,移到最左边即一行的开始,行首。很多串口协议和 MS-DOS 及 Windows 操作系统,也都是这么实现的。

而于此不同,对于 C 语言和 Unix 操作系统,其重新定义了 LF 字符的含义为新行,即 LF 和 CR 的组合才能表达出的,回车且换行的意思。

虽然你可以争论哪种用法是错的,但是,不可否认,是从程序的角度出发, C 语言和 Unix 对此 LF 的含义实现显得就很自然,而 MS-DOS 的实现更接近于 LF 的本意。

如果最开始 ASCII 标准中,及定义 CF 也定义 newline ,那样意思会清楚,会更好理理解:

LF 表示物理上的,设备控制方面的移动到下一行(并没有移动到行首);

新行( newline )表示逻辑上文本分隔符,即回车换行。

不过呢,现在人们常将 LF 用做 newline 新行的功能,而大多数文本编辑软件也都可以处理单个 LF 或者 CR/LF 的组合了。

LF 在 C 语言中,用 /n 表示。

11 – VT – V ertical T ab 垂直制表符

垂直制表符,类似于水平制表符 Tab ,目的是为了减少布局中的工作,同时也减少了格式化字符时所需要存储字符的空间。 VT 控制码用于跳到下一个标记行。说实话,还真没看到有些地方需要用这个 VT 呢,因为一般在换行的时候,都是用 LF 代替 VT 了。

12 – FF – F orm F eed 换页

设计换页键,是用来控制打印机行为的。当打印机收到此键码的时候,打印机移动到下一页。不同的设备的终端对此控制码所表现的行为各不同。有些会去清除屏幕,而其他有的只是显示 ^L 字符或者是只是新换一行而已。 Shell 脚本程序Bash 和 Tcsh 的实现方式是,把 FF 看作是一个清除屏幕的命令。 C 语言程序中用 /f 表示 FF (换页)。

13 – CR – Carriage return 机器的滑动部分 / 底座 返回 -> 回车

CR 回车的原意是让打印头回到左边界,并没有移动到下一行。

随着时间流逝,后来人把 CR 的意思弄成了 Enter 键,用于示意输入完毕。在数据以屏幕显示的情况下,人们在 Enter 的同时,也希望把光标移动到下一行。因此 C 语言和 Unix 操作系统,重新定义了 LF 的意思,使其表示为移动到下一行。当输入 CR 去存储数据的时候,软件也常常隐式地将其转换为 LF 。

14 – SO – S hift O ut 不用切换

15 – SI – S hift I n 启用切换

早在 1960s 年代,定义 ASCII 字符集的人,就已经懂得了,设计字符集不单单可以用于英文字符集,也要能应用于外文字符集,是很重要的。

定义 Shift In 和 Shift Out 的含义,即考虑到了此点。

最开始,其意为在西里尔语和拉丁语之间切换。西里尔 ASCII 定义中, KOI-7 用到了 Shift 字符。拉丁语用 Shift 去改变打印机的字体。在此种用途中, SO 用于产生双倍宽度的字符,而用 SI 打印压缩的字体。

16 – DLE – D ata L ink E scape 数据链路转义

有时候,我们需要在正在进行的通信过程中去发送一些控制字符。但是,总有一些情况下,这些控制字符却被看成了普通的数据流,而没有起到对应的控制效果。而 ASCII 标准中,定义 DLE 来解决这类问题。

如果数据流中检测到了 DLE ,数据接收端则对其后面接下来的数据流中的字符,另作处理。而关于具体如何处理这些字符, ASCII 规范中则没有具体定义,而只是弄了个 DLE 去打断正常数据的处理,告诉接下来的数据,要特殊对待。根据Modem 中的 Hayes 通信协议 DLE 定义为“无声 无声”。以我的观点,这样可能会更好:如果 Hayes 协议没有把DLE 处理为嵌入通讯的无声状态,那样就符合现存的标准了。然而 Hayes 的开发者却觉得 用的频率要远高于原始的DLE ,所以才这么定义了。

17 – DC1 – D evice C ontrol 1 / XON – Transmission on

这个 ASCII 控制字符尽管原先定义为 DC1 , 但是现在常表示为 XON ,用于串行通信中的软件流控制。其主要作用为,在通信被控制码 XOFF 中断之后,重新开始信息传输。用过串行终端的人应该还记得,当有时候数据出错了,按 Ctrl Q(等价于 XON )有时候可以起到重新传输的效果。这是因为,此 Ctrl Q 键盘序列实际上就是产生 XON 控制码,其可以将那些由于终端或者主机方面,由于偶尔出现的错误的 XOFF 控制码而中断的通信解锁,使其正常通信。

18 – DC2 – D evice C ontrol 2

19 – DC3 – D evice C ontrol 3 / XOFF – Transmission off 传输中断

20 – DC4 – D evice C ontrol 4

21 – NAK – N egative A cK nowledgment 负面响应 -> 无响应 , 非正常响应

22 – SYN – SYN chronous idle

23 – ETB – E nd of T ransmission B lock 块传输中止

24 – CAN – CAN cel 取消

25 – EM – E nd of M edium 已到介质末端,介质存储已满

EM 用于,当数据存储到达串行存储介质末尾的时候,就像磁带或磁头滚动到介质末尾一样。其用于表述数据的逻辑终点,即不必非要是物理上的达到数据载体的末尾。

26 – SUB – SUB stitute character 替补 / 替换

27 – ESC – ESC ape 逃离 / 取消

字符 Escape ,是 ASCII 标准的首创的,由 Bob Bemer 提议的。用于开始一段控制码的扩展字符。如此,即可以不必将所有可能想得到的字符都放到 ASCII 标准中了。因为,新的技术可能需要新的控制命令,而 ESC 可以用作这些字符命令的起始标志。 ESC 广泛用于打印机和终端,去控制设备设置,比如字体,字符位置和颜色等等。如果最开始的 ASCII 标准中,没有定义 ESC ,估计 ASCII 标准早就被其他标准所替代了,因为其没有包含这些新出现的字符,所以肯定会有其他新的标准出现,用于表示这些字符的。即, ESC 给开发者提供了,可以根据需要而定义新含义的字符的可能。

28 – FS – F ile S eparator 文件分隔符

文件分隔符是个很有意思的控制字符,因为其可以让我们看到 1960s 年代的时候,计算机技术是如何组织的。我们现在,习惯于随即访问一些存储介质,比如 RAM ,磁盘,但是在定义 ASCII 标 准的那个年代,大部分数据还是顺序的,串行的,而不是随机访问的。此处所说的串行的,不仅仅指的是串行通信,还指的是顺序存储介质,比如穿孔卡片,纸带, 磁带等。在串行通信的时代,设计这么一个用于表示文件分隔符的控制字符,用于分割两个单独的文件,是一件很明智的事情。而 FS 的原因就在于此。

29 – GS – G roup S eparator 分组符

ASCII 定义控制字符的原因中,其中一条就是考虑到了数据存储方面的情况。大部分情况下,数据库的建立,都和表有关,包含了对应的记录。同一个表中的所有的记录,属于同一类型。不同的表中的记录,属于对应的不同的类型。而分组符 GS 就是用来分隔串行数据存储系统中的不同的组。值得注意的是,当时还没有使用 word 的表格,当时 ASCII 时代的人,把他叫做组。

30 – RS – R ecord S eparator 记录分隔符

记录分隔符 RS 用于分隔在一个组或表内的多个记录。

31 – US – U nit S eparator 单元分隔符

在 ASCII 定义中,在数据库中所存储的,最小的数据项,叫做 Unit 单元。而现在我们称其 field 域。单元分隔符 US 用于分割串行数据存储环境下的不同的域。

现在大部分的数据库实现,要求大部分类型都拥有固定的长度。

尽管大部分时候可能用不到,但是对于每一个域,却都要分配足够大的空间,用于存放最大可能的成员变量。这样的做法,占用了大量的存储空间,而 US 控制码允许域具有可变的长度。在 1960s 年代,数据存储空间很有限,用 US 这个单元分隔符,将不同单元分隔开,这样就可以实现更高效地存储那些宝贵的数据。另一方面,串行存储的存储效率,远低于RAM 和磁盘中所实现的表格存储。我个人无法想象,如果现在的数据,还是存储在自带或者带滚轮的磁带上,会是何种景象。

32 – SP – White SP ace 空格键

也许你会争论说,空格键是否真的能算是一个控制字符?因为现在在普通文字中使用空格键是如此常见。

但是,既然水平制表符和退格键在 ASCII 中, 都被叫做控制字符了,那么我觉得也很自然地,可以把空格键(向前的空格)也叫做控制字符,毕竟,其本身并不代表一个真正的可见的字符,而仅仅只是很常用于 输出设备,用于处理位置前向移动一格,清除当前位置的内容而已。在很多程序中,比如字符处理程序,白空格同样可能从导致行尾转到下一行行首,而网络浏览器 将多个空格组合成单个空格输出。

所以,这更加坚定了我的想法,觉得完全可以把空格看成是一个控制字符,而不仅仅是一个很独特的普通字符。

127 – DEL – DEL ete 删除

有人也许会问,为何 ASCII 字符集中的控制字符的值都是很小的,即 0-32 ,而 DEL 控制字符的值却很大,是 127 。这是由于这个特殊的字符是为纸带而定义的。而在那个时候,绝大多数的纸带,都是用 7 个孔洞去编码数据的。而 127 这个值所对应的二进制值为 111 1111b ,表示所有 7 个比特位都是高,所以,将 DEL 用在现存的纸带上时,所有的洞就都被穿孔了,就把已经存在的数据都擦出掉了,就起到了对应的删除的作用了。

控制符的实现

ascii是什么码怎么来的(ASCII码是干什么的)(2)

,