1、输入码
输入码是用来将汉字输入到计算机中的一组键盘符号。常用的输入码有拼音码、五笔字型码、自然码、表形码、认知码、区位码和电报码等。
2、交换码
计算机内部处理的信息是用二进制代码表示的,而二进制代码使用起来是不方便的,于是需要采用信息交换码。
3、机内码
根据国标码的规定,每一个汉字都有了确定的二进制代码,在微机内部汉字代码都用机内码,在磁盘上记录汉字代码也使用机内码。
4、汉字的字形码
字形码输出汉字时都采用图形方式,无论汉字的笔画多少,每个汉字都可以写在同样大小的方块中。
5、汉字地址码
汉字地址码是指汉字库中存储汉字字形信息的逻辑地址码。
参考资料来源:百度百科-汉字编码
所谓编码,是以固定的顺序排列字符,并以此做为记录、存贮、传递、交换的统一 内部特征,这个字符排列顺序被称为“编码”。 字库的编码是字库组织的依据,也是文字处理的基础。不同国家和地区有不同的编 码标准,和中文字库有关的常见编码有:单字节编码、GB2312-80、GB12345-90、GBK、U nicode编码、ISO10646 / Unicode字符集、GB18030-2000、BIG5编码,下面简要介绍一 下: 单字节编码 MS Windows:Windows Latin 1(ANSI) MS-DOS:MS-DOS Latin US Macintosh:Macintosh Roman GB2312-80 全称是GB2312-80《信息交换用汉字编码字符集 基本集》,1980年发布,是中文信 息处理的国家标准,在大陆及海外使用简体中文的地区(如新加坡等)是强制使用的唯 一中文编码。P-Windows3.2和苹果OS就是以GB2312为基本汉字编码, Windows 95/98则 以GBK为基本汉字编码、但兼容支持GB2312。 双字节编码 范围:A1A1~FEFE A1-A9:符号区,包含682个符号 B0-F7:汉字区,包含6763个汉字 GB码共收录6763个简体汉字、682个符号,其中汉字部分:一级字3755,以拼音排 序,二级字3008,以偏旁排序。该标准的制定和应用为规范、推动中文信息化进程起了 很大作用。 GB12345-90 1990年制定了繁体字的编码标准GB12345-90《信息交换用汉字编码字符集 第一辅助 集》,目的在于规范必须使用繁体字的各种场合,以及古籍整理等。该标准共收录6866 个汉字(比GB2312多103个字,其它厂商的字库大多不包括这些字),纯繁体的字大概有 2200余个。 双字节编码 范围:A1A1~FEFE A1-A9:符号区,增加竖排符号 B0-F9:汉字区,包含6866个汉字 Unicode编码(Universal Multiple Octet Coded Character Set) 国际标准组织于1984年4月成立ISO/IEC JTC1/SC2/WG2工作组,针对各国文字、符号 进行统一性编码。1991年美国跨国公司成立Unicode Consortium,并于1991年10月与WG2 达成协议,采用同一编码字集。目前Unicode是采用16位编码体系,其字符集内容与ISO1 0646的BMP(Basic Multilingual Plane)相同。Unicode于1992年6月通过DIS(Draf International Standard),目前版本V2.0于1996公布,内容包含符号6811个,汉字209 02个,韩文拼音11172个,造字区6400个,保留20249个,共计65534个。 ISO10646 / Unicode字符集 全球可以共享的编码字符集。 UCS-4:组八位 平面八位 行八位 字位八位 UCS-2:00组中的00平面是基本多文种平面(BMP),4E00~9FFF 中日韩文字 Ext A(CJK):3400~4DB7,共6584字 Ext B(CJK):42,807个汉字,在第2平面的0100~A836 GBK编码(Chinese Internal Code Specification) GBK编码是中国大陆制订的、等同于UCS的新的中文编码扩展国家标准。GBK工作小组 于1995年10月,同年12月完成GBK规范。该编码标准兼容GB2312,共收录汉字21003个、 符号883个,并提供1894个造字码位,简、繁体字融于一库。 Windows95/98简体中文版的字库表层编码就采用的是GBK,通过GBK与UCS之间一一对应的 码表与底层字库联系。 英文名:Chinese Internal Code Specification 中文名:汉字内码扩展规范1.0版 双字节编码,GB2312-80的扩充,在码位上和GB2312-80兼容 范围:8140~FEFE(剔除xx7F)共23940个码位 包含21003个汉字,包含了ISO/IEC 10646-1中的全部中日韩汉字 GB18030-2000 英文名:Chinese Internal Code Specification 中文名:信息技术 信息交换用汉字编码字符集 基本集的扩充(
�8�9汉字在计算机上的编码主要有三种:输入码、机,内码和输出码,1.用于输入的汉字的编码——输入码(外码)
�8�9计算机上输入汉字的方法很多,如键盘编码输入、语音输入、手写输入、扫描输入等,其中键盘编码输入是最容易实现和最常用的一种汉字输入方法。英文等可以用键盘上的每个字母键来输入,而输入汉字则不同,不可能用有限的按键来对应每一个汉字,为了让用户能直接使用英文键盘输入汉字,于是就有了输入汉字时使用的汉字输入码,它一般由键盘上的字母或数字组成,代表某个汉字或某些汉字、词组或句子。当前用于汉字输入的编码方案很多,如区位码、拼音码、王码(五笔字型)、自然码等。2.用于储存汉字的编码——机内码(内码)
由于汉字输入码的编码方案多种多样,同一个汉字如果采用的编码方案不一样,其输入码就有可能不一样。如果计算机内部存放的是汉字输入码本身,就会造成相同汉字在机内可以用不同的编码表示,这样显然不合理,也给计算机内部的汉字处理增加了难度。为了将汉字的各种输入码在计算机内部统一起来,就引进了汉字的机内码。3.用于输出汉字的编码——输出码(字型码)
存储在计算机内的汉字在屏幕上显示或在打印机上打印出来时,必须以汉字字形输出,才能被人们所接受和理解。汉字的输出码实际上是汉字的字型码,它是由汉字的字模信息所组成的。汉字是一种象形文字,每个汉字东可以看成一个特定的图形,这种图形可以用点阵、向量等方式表示,而最基本的是用点阵表示。所谓点阵方式,就是将汉字分解成由若干个“点”�8�5组成的点阵字型,将此点阵字型至于网状方格上,每个方各试点阵中的一个“点”。
* 国标码(“国标”是中华人民共和国国家标准的简称)在中国大陆使用。GB 2312收录6763个汉字,GBK收录20912个汉字,最新的GB 18030收录27533个汉字。
* Big5码。收录13053个汉字。在台湾和香港使用的一字节或两字节编码。
* Unicode并不被中国政府很好的接受。中国政府要求在中国大陆出售的软件必须支持GB 18030编码。
* 在国际通信化和软件设计领域,中日韩统一表意文字编码收集了汉语、日语、韩语中的汉字集。
汉字在机内的存储和表示称为内码,供汉字输入(主要是通过键盘进行输入)的编码称为外码,供计算机输出(主要是指显示和打印)的编码称为汉字字模。
首先介绍汉字的内码,计算机处理汉字信息使用的编码。计算机处理汉字信息的前提条件是对每个汉字进行编码,这些编码统称为汉字编码。汉字信息在系统内传送的过程就是汉字编码转换的过程。在这其中又有几种编码形式。
1)汉字交换码
ASCII码是针对英文的字母、数字和其他特殊字符进行编码的,它不能用于对汉字的编码。要想用计算机来处理汉字,就必须先对汉字进行适当的编码。这就是“汉字交换码”。我国在1981年5月对6 000多个常用的汉字制定了交换码的国家标准,即:GB 2312-80,又称为“国标码”。该标准规定了汉字交换用的基本汉字字符和一些图形字符,它们共计7 445个,其中汉字有6 763个。其中,一级汉字(常用字)3 755个,按汉字拼音字母顺序排列,二级汉字3 008个,按部首笔画次序排列。该标准给定每个字符的二进制数编码,即国标码。
2)区位码
它是将GB 2312-80的全部字符集组成一个94×94的方阵,每一行称为一个“区”的编码方式。在这种编码中的编号为0l~94:每一列称为一个“位”,编号也为0l~94,这样得到GB 2312-80标准中汉字的区位图。用区位图的位置来表示的汉字编码,称为区位码。
3)机内码
为了避免ASCII码和国标码同时使用时产生二义性问题,大部分汉字系统都采用将国标码每个字节高位置1作为汉字机内码。这样既解决了汉字机内码与西文机内码之间的二义性,又使汉字机内码与国标码具有极简单的对应关系。
4)汉字机内码、国标码和区位码3者之间的关系
汉字机内码、国标码和区位码3者之间的关系为:区位码(十进制数)的两个字节分别转换为十六进制数后加20H得到对应的国标码;机内码是汉字交换码(国标码)两个字节的最高位分别加1,即汉字交换码(国标码)的两个字节分别加80H得到对应的机内码;区位码(十进制数)的两个字节分别转换为十六进制数后加A0H得到对应的机内码。
接下来介绍汉字输入码(外码)。
目前,汉字输入法主要有键盘输入、文字识别和语音识别。键盘输入法是当前汉字输入的主要方法。它大体可以分为:
流水码:如区位码、电报码、通信密码,优点是重码少,缺点是难于记忆;
音 码:以汉语拼音为基准输入汉字,优点是容易掌握,但重码率高;
形 码:根据汉字的字型进行编码,优点是重码少,但不容易掌握;
音形码:将音码和形码结合起来,能减少重码率,并提高汉字输入速度。
最后,简单向大家介绍汉字字模。
供计算机输出汉字(显示和打印)用的二进制数信息叫汉字字形信息也称字模。通用汉字字模点阵规格有:16×16,24×24,32×32,48×48,64×64。每个点在存储器中用一个二进制数存储,如一个16×16点阵汉字需要32个字节的存储空间。