下载此文档

字符、字节与编码.doc


文档分类:IT计算机 | 页数:约9页 举报非法文档有奖
1/9
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/9 下载此文档
文档列表 文档介绍
字符、字节与编码字符、字节与编码级别:中级摘要:引言“字符与编码”是一个被经常讨论的话题。即使这样,时常出现的乱码仍然困扰着大家。虽然我们有很多的办法可以用来消除乱码,但我们并不一定理解这些办法的内在原理。而有的乱码产生的原因,实际上由于底层代码本身有问题所导致的。因此,不仅是初学者会对字符编码感到模糊,有的底层开发人员同样对字符编码缺乏准确的理解。,,大致可以分为三个阶段:计算机刚开始只支持英语,其它语言不能够在计算机上存阶段一系统内码ASCII说明储和显示。为使计算机支持更多语言,通常使用0x80~0xFF范围的2个字节来表示1个字符。比如:汉字„中?在中文操作系统中,使用[0xD6,0xD0]这两个字节存储。不同的国家和地区制定了不同的标准,由此产生了GB2312,阶段二ANSI编码BIG5,JIS等各自的编码标准。这些使用2个字节来代表一个(本地化)字符的各种汉字延伸编码方式,称为ANSI编码。在简体中文系统下,ANSI编码代表GB2312编码,在日文操作系统下,ANSI编码代表JIS编码。不同ANSI编码之间互不兼容,当信息在国际间交流时,无法将属于两种语言的文字,存储在同一段ANSI编码的文本中。UNICODE(国际化)为了使国际间信息交流更加方便,国际组织制定了UNICODEWindows字符集,为各种语言中的每一个字符设定了统一并且唯一的数NT/2000/XP,Linux,字编号,以满足跨语言、跨平台进行文本转换、处理的要求。Java中文DOS,中文Windows95/98,日文Windows95/98系统英文DOS阶段三字符串在?在x86CPU中,低字节在前中文123\0一共占10个字节。,字节,字符串理解编码的关键,是要把字符的概念和字节的概念理解准确。这两个概念容易混淆,我们在此做一下区分:字符概念描述人们使用的记号,抽象意义上的一个符号。举例„1?,„中?,„a?,„$?,„,?,……0x01,0x45,0xFA,……"中文123"(占7字节)字节计算机中存储数据的单元,一个8位的二进制数,是一个很具体的存储空间。在内存中,如果“字符”是以ANSI编码形式存在的,一个字符可能使用一个字节或多个字节来表示,那么我们称这种字符串为ANSI字符串或者多字节字符串。ANSI字符串UNICODE在反之,将字节串转化成字符串时,也可能多个字节转化成一个字符。比如,[0xD6,0xD0]这两个字节,通过GB2312转化为字符串时,将得到[0x4E2D]一个字符,即„中?字。“ANSI编码”的特点:“ANSI编码标准”都只能处理各自语言范围之与“ANSI编码”不同的是:“UNICODE编码”能够处理所有的UNICODE字符。2.“UNICODE字符”与“转换出来的字节”之间是可以通过计算得到的。我们实际上没有必要去深究每一种编码具体把某一个字符编码成了哪几个字节,我们只需要知道“编码”的概念就是把“字符”转化成“字节”就可以了。对于“UNICODE编码”,由于它们是可以通过计算得到的,因此,在特殊的场合,我们可以去了解某一种“UNICODE编码”是怎样的规则。

字符、字节与编码 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数9
  • 收藏数0 收藏
  • 顶次数0
  • 上传人文库旗舰店
  • 文件大小23 KB
  • 时间2019-12-09
最近更新