汉字编码主要分为四大类:汉字输入码、汉字交换码、汉字内码和汉字字形码。
(1)汉字的外部码
汉字的外部码简称外码,又叫输人码,是输人汉字的一组键盘符号。使用不同的输入方法,同一汉字的外部码不同。用户应选用易记忆、操作简单、位码少、重码少和输人速度快的外码。
(2)汉字的内部码
汉字的内部码又称汉字内码或汉字机内码。机器接收到外码后,要转换成内码进行存储、运算和传送。用二个字节表示汉字的内码。为了和西文符号区分,内码的最高位设为“1”。内码通常用汉字在车库中的物理位置表示,可以是汉字在字库中的序号,也可以是字库中的存储位置。
(3)汉字交换码
在计算机之间交换信息时,要求传送的汉字代码符合国家规定的交换码标准,即符合GB2312-80信息交换用汉字编码集,又称为国标码。国标码收集了7445个图形字符,其中有6763个汉字和各种符号709个。
(4)汉字字形码
在显示或打印汉字时,还涉及到字形码,又称输出码。汉字字形是指原来铅字排版汉字的大小和形状,在计算机中指组成汉字的点阵。
尽管汉字字形有多种变化,笔画繁简不一,但都是方块字且大小相同,都可以写在同样的方块中。把一个方块看成m行n列矩阵,共有m×n个点,称为汉字点阵。如16×16点阵的汉字,共有256个点。
汉字编码
汉字编码(Chinese character encoding )是为汉字设计的一种便于输入计算机的代码。由于电子计算机现有的输入键盘与英文打字机键盘完全兼容。因而如何输入非拉丁字母的文字(包括汉字)便成了多年来人们研究的课题。
汉字信息处理系统一般包括编码、输入、存储、编辑、输出和传输。编码是关键。不解决这个问题,汉字就不能进入计算机。
汉字进入计算机的三种途径 分别为:
①机器自动识别汉字:计算机通过“视觉”装置(光学字符阅读器或其他),用光电扫描等方法识别汉字。
②通过语音识别输入:计算机利用人们给它配备的“听觉器官”,自动辨别汉语语音要素,从不同的音节中找出不同的汉字,或从相同音节中判断出不同汉字。
③通过汉字编码输入:根据一定的编码方法,由人借助输入设备将汉字输入计算机。
机器自动识别汉字和汉语语音识别,国内外都在研究,虽然取得了不少进展,但由于难度大,预计还要经过相当一段时间才能得到解决。在现阶段,比较现实的就是通过汉字编码方法使汉字进入计算机。