南洋大学校友业余网站

中 文 编 码 知 多 少

南大站

大家都知道,目前流行两种中文编码:简体中文采用国标码(GB2312),繁体中文采用大五码(Big5)。两种编码,都用双字节字符(double-byte character)编制内码。

繁体大五码,原是资讯工业应用的行业规范。1983年,台湾当局制定了《通用汉字标准交换码》,大五码(Big5) 成为繁体字编码标准。

国标码 GB2312 是中国在1980年颁布的国家标准交换码,收集了6763个汉字。1990年,又制定了GB13000编码。GB13000编码除了包含 GB2312 编码外,收集了《通用汉字标准交换码》中的繁体字,也收集了一些香港特别用字以及日文与韩文中的通用汉字,总共编入了2,0902个汉字。

在GB13000编码的基础上,中国于1995年发布了《汉字内码扩展规范》,制定了国家标准扩展码,简称国标扩(GBK)。国标扩向下与国标码GB2312完全兼容,向上支持国际标准 ISO 10646编码,编入了2,1886个字符。

微软视窗95中文版,开始支援国标扩,在英文版上运作的中文软体,也逐渐由只支援国标码GB2312,发展成为支援国标扩GBK全部字集。浏览器Internet Explorer 第5版以后,可以在网页同时显示繁、简两种字体。在视窗98系统里,简体字用新字形,繁体用旧字形,看来有点怪异。视窗XP系统出现以后,繁体字有了新字形,繁、简字面趋向一致。

2000年,中国发布新标准编码GB18030,兼容GB13000编码,还收录了藏、蒙、维等族的文字,共有2,7533个字。此标准兼用一、二及四字节字符,对应着国际标准的四字节统一码 (Unicode)。

现在的电脑系统,大体是采用一、二字节字符。GB18030编码和统一码的应用,与今后电脑系统在四字节字符的开发,有着密切关系。在视窗XP系统里,须要装置语言支持包(GB18030 Support Package),才能显示其中的四字节字符。一般上说,应用还未普及。相对来讲,只用双字节字符的国标扩(GBK),技术早已成熟,许多繁、简字,都可输入显示,大体解决了中文编码的主要难题。

微软的 WORD 2000(及以后版本),可说是真正支援国标扩的常用软体。由于简、繁字同在一个编码里,输入时须注意选择只用简体字(或者繁体字、下文类推),才不会混用繁、简字。希望有关方面,能进一步开发好软体,输入显示字表时,标明简繁对应的汉字。或者,另外开发软体功能,把文件中的有对应简体的繁体字,对换成简体字。到时,参杂简、繁两种字体的文件,可以轻易转换成一致的字体。

通常所说的繁简字体对译,指的是国标GB2312编码与大五码(Big5)的对译,与国标扩(GBK)里繁简字的对换是两回事。南极星的中文处理系统,GB2312编码与Big5编码的对译功能,相当完善。南极星软体的内码是大五码,不是国标扩。南极星软体所指的GBK,实际与GB2312编码差不多。国标扩里GB2312编码以外的字集,要在南极星全球通(NJStar Commmunicator)选取GB18030才能正确显示。实际上,南极星的GB18030,只是涵盖部分国标扩字集而已。

与南极星的全球通对应的外挂软体是中文之星。中文之星把国标扩分成简繁两部分,应用简体时,不能输入简体字集里没有的汉字;应用繁体时,不能显示简体字。如果在简体字的文件里,加入一些非常用字,容易造成乱码。中文之星用国标扩作内码,应该很容易进一步开发,完成输入和显示所有国标扩字集的功能。

近年来,涌现了不少比中文之星更先进的中文输入法。例如,紫光华宇拼音输入法,提供免费汉字输入基本工具,不但可以输入简、繁字符,也能够输入国标扩的大字集字符。

另外,统一码采用四字节字符,能够涵盖世界各国文字。中日韩通用字符,被编入16进数区 4E00-9FBF。视窗XP字库支持此编码区,此区几乎包含所有汉字字符。一些输入软体没法输入的字符,可用HTML码来暂时取代。例如,“齒”字的编码是9F52,可以用 齒 显示。

中文编码正在趋向功能更完善、使用更简便的阶段。各个中文软体支持国际扩的功能,有所不同。如果使用旧中文软体,明了内中的缺陷,适巧使用,可以取得比较满意的效果。

2004-7-25
2007-9-23 修

主页
Home
历史资料
History
旧抄集存
Archives
南大心声
Speak Out
友谊邮箱
Mail
联欢会
Reunion
回忆、感想
Recollection
互联网知识
On Internet

自强不息 力求上进

2004年07月25日首版 Created on July 25, 2004
2007年09月23日改版 Last updated on September 23, 2007