ASCII码与汉字编码

发布时间:2011年1月1日 作者:未知 查看次数:1701

ASCII码与汉字编码


ASCII码与汉字编码

基础理论

一、ASCII

1、什么叫ASCII码?

计算机中用二进制数表示字母、数字、符号以及控制符号,目前主要用ASCII码(美国标准信息交换码的缩写)。

1)常用字符有128个,编码从0127

2)控制字符:0~31127,共33个,不可显示;

3)普通字符:95个,包括10个阿拉伯数字、52个英文大小写字母、33个运算符。

4)每个字符占个字节,7位,最高位为0

 

常见ASCII码的大小规则,09AZaz

  1)数字比字母要小。如 7”<“F

  2)数字0比数字9要小,并按09顺序递增。如 3”<“8

  3)字母A比字母Z要小,并按AZ顺序递增。如“A”<“Z

  4)同个字母的大写字母比小写字母要小32。如“A”<“a

 记住几个常见字母的ASCII码大小:

  “A”为65;“a”为97;“0”为48

 2ASCII码表如下:

字符

范围

十六进制

十进制

空格

20H

32

0~9

30H~39H

48~57

A~Z

41H~5AH

65~90

a~z

61H~7AH

97~122

二、汉字编码

1、汉字编码分类汉字在不同的处理阶段有不同的编码。

1)汉字的输入:输入码

2)汉字的机内表示:机内码

3)汉字的输出:字形码(字库  Font

输入码
国标码
机内码
输出码

各种编码之间的关系:

 

 

2、汉字的机内表示:机内码

计算机在信息处理时表示汉字的编码,称作机内码。现在我国都用国标码(GB2312)作为机内码,GB2312-80规定了:

1)一个汉字由两个字节组成,为了与ASCII码区别,最高位均为“1”。

2)汉字6763个:一级汉字3755个,按汉字拼音字母顺序排列;二级汉字3008个,按部首笔画汉字排列。

3)汉字分区:94行(区),94列(位)(区位码)

 

3、汉字的输入:汉字输入码

1)数字码(或流水码)

如:电报码、区位码、纵横码

优点:无重码,不仅能对汉字编码,还能对各种字母、数字符号进行编码。

缺点:是人为规定的编码,属于无理码,只能作为专业人员使用。

2)字音码

如:全拼、双拼、微软拼音

优点:简单易学。

缺点:汉字同音多,所以重码很多,输入汉字时要选字。

3)字形码

如:五笔字型、表形码、大众码、四角码

优点:见字识码,一般重码率较低,经强化训练后可实现盲打。

缺点:拆字法没有统一的国家标准,拆字难,编码规则繁,记忆量大。

4)音形码

如:声形自然码、钱码

 

优点:利用音码的易学性和形码可有效减少重码。

缺点:既要考虑字音,又要考虑字形,比较麻烦。

4、汉字的输出:字形码(字库 Font

1点阵字形

A16?1624×2448×48

B)每一个点在存储器中用一个二进制位(bit)存储,所以一个16×16点阵汉字需要3216×16/832)个字节存储空间。

2轮廓字形

把汉字笔画的轮廓用一组直线和曲线勾画,记录的是这些几何形状之间的关系,精度高,WindowsTrueType字库采用此法。

5、区位码、国标码与机内码的转换关系

方法

1)区位码先转换成十六进制数表示

2)(区位码的十六进制表示)+2020H=国标码;

3)国标码+8080H=机内码

举例:以汉字“大”为例,“大”字的区内码为2083

解:1、区号为20,位号为83

2、将区20,位号83分别转换为十六进制表示为1453H

31453H2020H3473H,得到国标码3473H

43473H8080HB4F3H,得到机内码为B4F3H

 



版权所有!www.sieye.cn
E.Mail:sieye@sohu.com QQ:66697110