2004/05/22

理解UTF-8和UNICODE的区别是很重要的

UTF-8 and Unicode FAQ

这篇文章一半的篇幅介绍了unicode的由来,说白了,就是用16位二进制来编码全球的文字符号。
但unicode的表示方式的多种多样的,兼容性最好,且被UNIX世界广泛接受的是UTF-8方式,它的特点是用1至3个字节(8位)来映射unicode编码,虽然它是不定码长的,但,它的规则:
U-00000000 - U-0000007F: 0xxxxxxx
U-00000080 - U-000007FF: 110xxxxx 10xxxxxx
U-00000800 - U-0000FFFF: 1110xxxx 10xxxxxx 10xxxxxx

决定了它对码制转换是不会岐义和失真的,这点非常重要,它还兼容了C世界广泛的特殊转义序列,所以UTF-8将成为未来的标准。

不同的应用在支持UTF-8上都会有特殊的开关和规定,具体在WEB世界,UTF-8被解释成一串连续的如下格式的串:
%HH ----HH表示16进制表示。

由于中文字符对应3字节的UTF-8编码,所以在WEB上,中文字符用UTF-8表示时,是其编码的十六进制显示形式加上前导%号。

如:雨声论坛
用utf-8的WEB表示,将是:
%E9%9B%A8%E5%A3%B0%E8%AE%BA%E5%9D%9B

0 评论数:

Post a Comment

<< 首页