根据应用目的的不同,汉字编码分为外码、交换码、机内码和字形码。
1、外码:是用来将汉字输入到计算机中的一组键盘符号。常用的输入码有拼音码、五笔字型码、自然码、表形码、认知码、区位码和电报码等。
2、交换码:计算机内部处理信息,用二进制代码表,需要采用信息交换码。
3、机内码:根据国标码的规定,每一个汉字都有了确定的二进制代码,在微机内部汉字代码都用机内码,在磁盘上记录汉字代码也使用机内码。
4、字形码:是汉字的输出码,输出汉字时都采用图形方式,无论汉字的笔画多少,每个汉字都可以写在同样大小的方块中。
汉字编码分为如下几类
(1)汉字输入码,简称外码,其作用是将汉字信息输入到计算机内部;
(2)汉字交换码,其作用是在汉字信息系统之间进行汉字交换时所使用的编码;
(3)汉字内码,其作用是信息处理系统内部存储、处理、传输汉字而使用的编码;
(4)汉字字形码,其作用是表示汉字字形信息的编码,在显示或打印的时候使用;
参考资料:《大学计算机-计算思维导论》,清华大学出版社2019
big5(繁体中文,台湾)
gb2312(简体中文,提供大约6763常用字)
gbk(gb2312的扩展,编码范围8140-FEFE,共收入 21886 个汉字和图形符号,其中汉字(包括部首和构件)21003 个,图形符号 883 个)
gb18030(GB18030汉字库包含了27484个汉字。因此GB18030汉字库包含的汉字更多,但在系统支持上有限)
其中gb2312最通用
unicode
big5
gkb
gb2312