表示每个字符的二进制编码具体等于几并不重要,我们可以用(1111)2 表示字符 A,也可 以用(0000)2 表示字符 A,这不会带来什么本质的不同,事实上只要确保不同字符有不同的 编码即可。但是,为了在不同计算机之间能够交换信息,避免发生一台计算机上的字符 A(假设编码是(0000)2)传给另一台计算机后被解释成字符 B(假设(0000)2 在这台机器上恰 好是 B 的编码),我们需要统一字符编码。基于这个思想,人们制定了字符集编码标准—— 定义所支持的字符集以及每个字符的二进制编码。

    由于计算机是美国人发明的,所以较早出现的一个编码标准是根据美国的使用情况制定 的标准,称为 ASCII①。这个标准也是最重要的,几乎所有计算机都支持 ASCII 的字符编码。 ASCII 使用一个字节的 7 位二进制位来表示字符(最高位恒为 0),这样就只能支持 27 = 128 个字符,各字符的编码如果用十进制表示就是 0~127。ASCII 所定义的字符包括大小写英 文字母、阿拉伯数字、标点符号、空格、回车、换行等,它们分为可打印字符和控制字符两 类。

    Python 中提供了两个与字符编码有关的函数:ord()函数用于从字符得到其编码,chr() 函数用于从编码得出对应的字符。例如:

    ASCII 编码的一个问题是支持的字符太少,对美国人来说够用,但对其他国家来说远远 不够。因此产生了各种对 ASCII 的扩充标准。例如针对欧洲语言的 Latin-1 标准将一个字节 的最高位也用上,从而在 ASCII 的基础上增加了 128 个字符。

    中国的汉字也是字符,并且数量很大,用一个字节编码是远远不够的。较早的国家标准 GB2312 采用两个字节来对汉字编码,共定义了 6763 个汉字。后来产生了 GBK 规范,仍然 用两个字节编码,但支持 2 万多个汉字。最新的国家标准是 GB18030,它最多可用四个字 节编码,支持 7 万多个汉字。

    为了将全世界的字符编码统一起来,国际标准化组织 ISO 制定了一个庞大的字符编码 标准 Unicode。Unicode 最多用四个字节的编码,因此可以囊括地球上所有语言所用到的所 有字符,目前已经得到广泛支持。较新版本的 Python 语言(包括 2.7 版)都支持 Unicode。 下面我们举例说明 Python 对非 ASCII 字符的处理方法。最简单的方法是使用 Unicode 字符串。Python 语言中,在字符串前面加个前缀 u 就表示 Unicode 字符串,其中可以使用

    任意 Unicode 字符。例如:

    再看汉字的例子:

    从第一条语句可以看出,我们输入的“汉”字在机器内部被表示成了两个字节的编码,该编码按十六进制表示等于 baba,亦即 GBK 规范中“汉”的编码①。接下来两条 print 语句 表明,字符“汉”和编码“\xba\xba”作用是一样的。

    如果需要将汉字和 ASCII 字符、Latin-1 字符等混合在一起构成字符串,那就只能用 Unicode 字符串。例如,“汉”在 Unicode 中的编码是 6c49,在 Unicode 字符串中可以用\u6c49 代表“汉”。结合前面的例子,读者应能理解下面这条语句的结果:

    如果希望 Python 程序能够处理包含汉字的字符串,用 Unicode 字符串是最可靠的做法。