我来分享字符集和字符编码格式有什么区别和作用
|
字符集和字符编码格式有什么区别和作用?为什么码好的代码在别人的电脑上运行会出现乱码?其实主要问题在于计算机存储介质中存放的二进制比特流。如果字符集和字符编码两者之间的转换规则不统一标准,就会乱码现象。
字符集和字符编码格式有什么区别和作用? 在介绍字符集之前,我们先了解下为什么要有字符集。我们在计算机屏幕上看到的是实体化的文字,而在计算机存储介质中存放的实际是二进制的比特流。那么在这两者之间的转换规则就需要一个统一的标准,否则把我们的U盘插到别的电脑上,文档就乱码了;小伙伴QQ上传过来的文件,在我们本地打开又乱码了。 什么是字符集? 在介绍字符集之前,我们先了解下为什么要有字符集。我们在计算机屏幕上看到的是实体化的文字,而在计算机存储介质中存放的实际是二进制的比特流。那 么在这两者之间的转换规则就需要一个统一的标准,否则把我们的U盘插到老板的电脑上,文档就乱码了;小伙伴QQ上传过来的文件,在我们本地打开又乱码了。 于是为了实现转换标准,各种字符集标准就出现了。简单的说字符集就规定了某个文字对应的二进制数字存放方式(编码)和某串二进制数值代表了哪个文字(解 码)的转换关系。 那么为什么会有那么多字符集标准呢?这个问题实际非常容易回答。问问自己为什么我们的插头拿到英国就不能用了呢?为什么显示器同时有 DVI,VGA,HDMI,DP这么多接口呢?很多规范和标准在最初制定时并不会意识到这将会是以后全球普适的准则,或者处于组织本身利益就想从本质上区 别于现有标准。于是,就产生了那么多具有相同效果但又不相互兼容的标准了。 说了那么多我们来看一个实际例子,下面就是屌这个字在各种编码下的十六进制和二进制编码结果,怎么样有没有一种很屌的感觉?
什么是字符编码? 字符集只是一个规则集合的名字,对应到真实生活中,字符集就是对某种语言的称呼。例如:英语,汉语,日语。对于一个字符集来说要正确编码转码一个字 符需要三个关键元素:字库表(character repertoire)、编码字符集(coded character set)、字符编码(character encoding form)。其中字库表是一个相当于所有可读或者可显示字符的数据库,字库表决定了整个字符集能够展现表示的所有字符的范围。编码字符集,即用一个编码值 code point来表示一个字符在字库中的位置。字符编码,将编码字符集和实际存储数值之间的转换关系。一般来说都会直接将code point的值作为编码后的值直接存储。例如在ASCII中A在表中排第65位,而编码后A的数值是0100 0001也即十进制的65的二进制转换结果。 看到这里,可能很多读者都会有和我当初一样的疑问:字库表和编码字符集看来是必不可少的,那既然字库表中的每一个字符都有一个自己的序号,直接把序号作为存储内容就好了。为什么还要多此一举通过字符编码把序号转换成另外一种存储格式呢? 其实原因也比较容易理解:统一字库表的目的是为了能够涵盖世界上所有的字符,但实际使用过程中会发现真正用的上的字符相对整个字库表来说比例非常 低。例如中文地区的程序几乎不会需要日语字符,而一些英语国家甚至简单的ASCII字库表就能满足基本需求。而如果把每个字符都用字库表中的序号来存储的 话,每个字符就需要3个字节(这里以Unicode字库为例),这样对于原本用仅占一个字符的ASCII编码的英语地区国家显然是一个额外成本(存储体积 是原来的三倍)。算的直接一些,同样一块硬盘,用ASCII可以存1500篇文章,而用3字节Unicode序号存储只能存500篇。于是就出现了 UTF-8这样的变长编码。在UTF-8编码中原本只需要一个字节的ASCII字符,仍然只占一个字节。而像中文及日语这样的复杂字符就需要2个到3个字 节来存储。 UTF-8和Unicode的关系: 看完上面两个概念解释,那么解释UTF-8和Unicode的关系就比较简单了。Unicode就是上文中提到的编码字符集,而UTF-8就是字符 编码,即Unicode规则字库的一种实现形式。随着互联网的发展,对同一字库集的要求越来越迫切,Unicode标准也就自然而然的出现。它几乎涵盖了 各个国家语言可能出现的符号和文字,并将为他们编号。详见:Unicode on Wikipedia。 Unicode的编号从0000开始一直到10FFFF共分为16个Plane,每个Plane中有65536个字符。而UTF-8则只实现了第一 个Plane,可见UTF-8虽然是一个当今接受度最广的字符集编码,但是它并没有涵盖整个Unicode的字库,这也造成了它在某些场景下对于特殊字符 的处理困难(下文会有提到)。 UTF-8编码简介: 为了更好的理解后面的实际应用,我们这里简单的介绍下UTF-8的编码实现方法。即UTF-8的物理存储和Unicode序号的转换关系。 UTF-8编码为变长编码。最小编码单位(code unit)为一个字节。一个字节的前1-3个bit为描述性部分,后面为实际序号部分。 如果一个字节的第一位为0,那么代表当前字符为单字节字符,占用一个字节的空间。0之后的所有部分(7个bit)代表在Unicode中的序号。 如果一个字节以110开头,那么代表当前字符为双字节字符,占用2个字节的空间。110之后的所有部分(7个bit)代表在Unicode中的序号。且第二个字节以10开头 如果一个字节以1110开头,那么代表当前字符为三字节字符,占用2个字节的空间。110之后的所有部分(7个bit)代表在Unicode中的序号。且第二、第三个字节以10开头 如果一个字节以10开头,那么代表当前字节为多字节字符的第二个字节。10之后的所有部分(6个bit)代表在Unicode中的序号。 具体每个字节的特征可见下表,其中x代表序号部分,把各个字节中的所有x部分拼接在一起就组成了在Unicode字库中的序号:
我们分别看三个从一个字节到三个字节的UTF-8编码例子:
细心的读者不难从以上的简单介绍中得出以下规律: 3个字节的UTF-8十六进制编码一定是以E开头的。 |
相关文章
热销商品
淘A类母婴级双层纱少女心事纯棉床单单件床笠被套可配全棉三四件套
A类母婴级双层纱少女心事纯棉床单单件床笠被套可配全棉三四件套
¥23.8 领券购买
天秋冬季披肩毛毯单人办公室午睡小毯子学生两用盖膝保暖午睡毯发热
秋冬季披肩毛毯单人办公室午睡小毯子学生两用盖膝保暖午睡毯发热
¥24.43 领券购买
淘南9-11纯棉男士圆领套头有弹性镂空透气舒适百搭短袖针织衫Z25-12
南9-11纯棉男士圆领套头有弹性镂空透气舒适百搭短袖针织衫Z25-12
¥19.9 领券购买
淘美乐蒂小毛毯少女粉~秋冬ins盖毯学生宿舍铺床毯办公室午睡沙发毯
美乐蒂小毛毯少女粉~秋冬ins盖毯学生宿舍铺床毯办公室午睡沙发毯
¥14.5 领券购买
淘意式轻奢微晶石一体盆实木智能组合浴室柜卫生间洗手洗脸洗漱台
意式轻奢微晶石一体盆实木智能组合浴室柜卫生间洗手洗脸洗漱台
¥479 领券购买
天洁丽雅全棉三层纱布毛巾被纯棉夏季毛毯办公室午睡毯被子沙发盖毯
洁丽雅全棉三层纱布毛巾被纯棉夏季毛毯办公室午睡毯被子沙发盖毯
¥59 领券购买
淘速热电加热理疗海盐粗盐热敷家用电盐袋热敷暖宫腰带艾灸电热加宽
速热电加热理疗海盐粗盐热敷家用电盐袋热敷暖宫腰带艾灸电热加宽
¥9.6 领券购买
淘岩板陶瓷盆亮面浴室柜组合现代简约卫生间洗漱台厕所洗手盆柜组合
岩板陶瓷盆亮面浴室柜组合现代简约卫生间洗漱台厕所洗手盆柜组合
¥620 领券购买
淘圆角太空铝智能浴室镜柜储物柜卫生间挂墙式带美妆收纳架梳妆镜箱
圆角太空铝智能浴室镜柜储物柜卫生间挂墙式带美妆收纳架梳妆镜箱
¥115 领券购买
天家用吸顶风扇灯2026年新款餐厅静音客厅卧室变频带电一体风扇吊灯
家用吸顶风扇灯2026年新款餐厅静音客厅卧室变频带电一体风扇吊灯
¥230 领券购买
淘海尔电热水器洗澡家用省电节能家用卫生间60L恒温速热节能MC3PRO
海尔电热水器洗澡家用省电节能家用卫生间60L恒温速热节能MC3PRO
¥498 领券购买
天【定做30天】九牧卫浴中古风感应灯家用美妆浴室柜组合陶瓷一体盆
【定做30天】九牧卫浴中古风感应灯家用美妆浴室柜组合陶瓷一体盆
¥1578.5 领券购买
淘艺术收藏夹 小酒馆 毛毯空调毯便携休闲毯可折叠办公室午睡毯礼物
艺术收藏夹 小酒馆 毛毯空调毯便携休闲毯可折叠办公室午睡毯礼物
¥125 领券购买
淘【清仓处理】清仓处理加厚法兰绒毛毯床单铺盖宿舍学生四季毯纯色
【清仓处理】清仓处理加厚法兰绒毛毯床单铺盖宿舍学生四季毯纯色
¥5.86 领券购买
淘戴眼镜的卡通兔子胸针女衬衫胸口免缝防走光扣时尚百搭配饰品5231
戴眼镜的卡通兔子胸针女衬衫胸口免缝防走光扣时尚百搭配饰品5231
¥32.8 领券购买
淘莫兰迪针织毯民宿床尾巾毛毯装饰搭巾客厅午睡盖毯轻奢沙发毯子
莫兰迪针织毯民宿床尾巾毛毯装饰搭巾客厅午睡盖毯轻奢沙发毯子
¥61.2 领券购买

