南大站
|
大家都知道,目前流行两种中文编码:简体中文采用国标码(GB2312),繁体中文采用大五码(Big5)。两种编码,都用双字节字符(double-byte character)编制内码。 繁体大五码,原是资讯工业应用的行业规范。1983年,台湾当局制定了《通用汉字标准交换码》,大五码(Big5) 成为繁体字编码标准。 国标码 GB2312 是中国在1980年颁布的国家标准交换码,收集了6763个汉字。1990年,又制定了GB13000编码。GB13000编码除了包含 GB2312 编码外,收集了《通用汉字标准交换码》中的繁体字,也收集了一些香港特别用字以及日文与韩文中的通用汉字,总共编入了2,0902个汉字。 在GB13000编码的基础上,中国于1995年发布了《汉字内码扩展规范》,制定了国家标准扩展码,简称国标扩(GBK)。国标扩向下与国标码GB2312完全兼容,向上支持国际标准 ISO 10646编码,编入了2,1886个字符。 微软视窗95中文版,开始支援国标扩,在英文版上运作的中文软体,也逐渐由只支援国标码GB2312,发展成为支援国标扩GBK全部字集。浏览器Internet Explorer 第5版以后,可以在网页同时显示繁、简两种字体。在视窗98系统里,简体字用新字形,繁体用旧字形,看来有点怪异。视窗XP系统出现以后,繁体字有了新字形,繁、简字面趋向一致。 2000年,中国发布新标准编码GB18030,兼容GB13000编码,还收录了藏、蒙、维等族的文字,共有2,7533个字。此标准兼用一、二及四字节字符,对应着国际标准的四字节统一码 (Unicode)。 现在的电脑系统,大体是采用一、二字节字符。GB18030编码和统一码的应用,与今后电脑系统在四字节字符的开发,有着密切关系。在视窗XP系统里,须要装置语言支持包(GB18030 Support Package),才能显示其中的四字节字符。一般上说,应用还未普及。相对来讲,只用双字节字符的国标扩(GBK),技术早已成熟,许多繁、简字,都可输入显示,大体解决了中文编码的主要难题。 微软的 WORD 2000(及以后版本),可说是真正支援国标扩的常用软体。由于简、繁字同在一个编码里,输入时须注意选择只用简体字(或者繁体字、下文类推),才不会混用繁、简字。希望有关方面,能进一步开发好软体,输入显示字表时,标明简繁对应的汉字。或者,另外开发软体功能,把文件中的有对应简体的繁体字,对换成简体字。到时,参杂简、繁两种字体的文件,可以轻易转换成一致的字体。 通常所说的繁简字体对译,指的是国标GB2312编码与大五码(Big5)的对译,与国标扩(GBK)里繁简字的对换是两回事。南极星的中文处理系统,GB2312编码与Big5编码的对译功能,相当完善。南极星软体的内码是大五码,不是国标扩。南极星软体所指的GBK,实际与GB2312编码差不多。国标扩里GB2312编码以外的字集,要在南极星全球通(NJStar Commmunicator)选取GB18030才能正确显示。实际上,南极星的GB18030,只是涵盖部分国标扩字集而已。 与南极星的全球通对应的外挂软体是中文之星。中文之星把国标扩分成简繁两部分,应用简体时,不能输入简体字集里没有的汉字;应用繁体时,不能显示简体字。如果在简体字的文件里,加入一些非常用字,容易造成乱码。中文之星用国标扩作内码,应该很容易进一步开发,完成输入和显示所有国标扩字集的功能。 近年来,涌现了不少比中文之星更先进的中文输入法。例如,紫光华宇拼音输入法,提供免费汉字输入基本工具,不但可以输入简、繁字符,也能够输入国标扩的大字集字符。 另外,统一码采用四字节字符,能够涵盖世界各国文字。中日韩通用字符,被编入16进数区 4E00-9FBF。视窗XP字库支持此编码区,此区几乎包含所有汉字字符。一些输入软体没法输入的字符,可用HTML码来暂时取代。例如,“齒”字的编码是9F52,可以用 齒 显示。 中文编码正在趋向功能更完善、使用更简便的阶段。各个中文软体支持国际扩的功能,有所不同。如果使用旧中文软体,明了内中的缺陷,适巧使用,可以取得比较满意的效果。 2004-7-25
|
| 主页 Home | 历史资料 History | 旧抄集存 Archives | 南大心声 Speak Out | 友谊邮箱 | 联欢会 Reunion | 回忆、感想 Recollection | 互联网知识 On Internet |