海归网首页   海归宣言   导航   博客   广告位价格  
海归论坛首页 会员列表 
收 藏 夹 
论坛帮助 
登录 | 登录并检查站内短信 | 个人设置 论坛首页 |  排行榜  |  在线私聊 |  专题 | 版规 | 搜索  | RSS  | 注册 | 活动日历
主题: IT行业系列:从信息熵角度看中文软件和中文信息业的发展(转贴)
回复主题   printer-friendly view    海归论坛首页 -> 海归商务           焦点讨论 | 精华区 | 嘉宾沙龙 | 白领丽人沙龙
  阅读上一个主题 :: 阅读下一个主题
作者 IT行业系列:从信息熵角度看中文软件和中文信息业的发展(转贴)   
安普若
[博客]
[个人文集]




头衔: 海归元勋

头衔: 海归元勋
声望: 大师
性别: 性别:男
加入时间: 2004/02/21
文章: 26038
来自: 中国美国的飞机上
海归分: 4196257





文章标题: IT行业系列:从信息熵角度看中文软件和中文信息业的发展(转贴) (1530 reads)      时间: 2004-1-18 周日, 04:47   

作者:安普若海归商务 发贴, 来自【海归网】 http://www.haiguinet.com

从信息熵角度看中文软件和中文信息业的发展

米阿仑 (原载ChinaByte)

一、引言
二、信息熵的来历、基本概念和方法
三、信息熵的意义
四、超级计算机能提高汉字方式的效率吗?
五、信息熵:鉴别微软公司中文产品的有力工具
六、文艺复兴:中文信息产业基础建设的战略条件

一、引言

前些时候,我读到一些报导说,在中国软件市场,80年代是中文操作系统竞争,90年代
是中文输入法竞争,从现在起,是办公室套件竞争。这个竞争线条,是按照微软公司中
文产品的发展来描绘的:系统和基础科学技术的标准问题,微软公司已经解决,剩下仅
仅是如何开发应用软件市场了。

然而,仔细考察微软公司的中文软件系列(包括系统软件),就能发现基础科学技术方
面的错误(不是打补丁就能修补的臭虫)。这些错误对中国的软件市场、语言文字工作、
文化教育事业和有关科研方面造成的误导相当严重,以至于指明这些错误和做科学探讨
都成了非常困难的事情。如果把中文软件工业比喻作一棵参天大树,那么,微软公司中
文系统的错误就出在树根上:微软公司在设计制作中文软件的时候,忽略了信息科学技
术的基础课题:信息熵。

“千年虫”(Y2K)是基础建设过失造成的“定时炸弹”。这颗炸弹只涉及表示年份的两
个字节,受威胁的只限于跟年份有关的数据和操作。正是为了纠正这两个小小字节的错
误,从1998年年初到现在,全世界已经消耗了将近一万亿美元,人力投入无数,随着Y2K
的临近,消耗还在增加。

微软公司中文产品系统的错误是“定量炸弹”。这颗炸弹涉及的不是两个字节,而是整
个系统的基础。把它称“定量”,是因为没有达到一定信息产业的产品数量和技术要求
的程度,就很难看到这颗炸弹的潜在威胁会造成多大损失。这颗炸弹可能很快起爆,也
可能要等一段时间,全看中文信息产业发展如何。一旦起爆,那就不是两个字节的问题,
而是整个系统以及这个系统下的全部数据和操作的问题,其威胁比Y2K 要大得多。

微软公司产品的发展线条不能代表中文信息产业发展的实际和需要。如果不搞好基础建
设,继续忽略信息熵的基本原理和方法,那么,中文信息产业相当大的一部分很可能有
一天会毁于微软公司的“定量炸弹”。

中国早在70年代就完成了中文信息熵的基础工作,80年代基本上完成了大规模的中文信
息熵研究工作。这些,本来应该是中文软件工业发展的科学技术基础。然而,面临信息
时代的挑战,一些报刊杂志望文生义地使用信息论的一些术语和词汇宣扬“汉字优越”,
为微软公司控制中文软件市场提供了文化条件。这些年来,微软公司的中文系统被误认
为“标准”,几乎成了一种迷信,迫使许多中文软件厂商为幸存而奔忙,无暇顾及基础
建设。内外因素结合的结果是,中文软件产业和有关的科学研究几乎成了微软公司中文
产品大树的枝和叶,一旦这棵大树根基的“定量炸弹”引爆,后果不堪想象。

这篇文章试图破除微软迷信,说明信息熵对中文信息产业和中文软件发展的重要意义,
同时,希望中文软件厂商能更多过问科学技术的基础问题,把微软公司误导的中文软件
市场转移到正确的轨道上来,也希望中国政府有关部门在制定软件工业标准的时候,要
特别关注中文信息产业的基础建设。

二、信息熵的来历、基本概念和方法

美国的信息产业能有今天的称雄世界的实力,能接连不断地产生新的技术产品,是跟坚
实的基础建设分不开的。这个基础建设的科学技术的基本依据,是信息科学技术的基本
原理和方法:信息熵(ENTROPY)。

第二次世界大战期间,美国为了提高信息储存和传递的效率,发明了多种新的编码方法,
奠定了现代信息科学技术的基础。战争结束后,这些方法得到了飞跃发展。在这些方法当
中,科学家闪农和霍夫曼提出的信息熵和数据压缩的理论和方法最能代表现代信息学的基
本概念。个人计算机和BBS 问世以后,信息熵和数据压缩技术迅速普及。现在,这种技术
已经成为计算机和联网必不可少的组成部分。

这里用闪农最喜欢用的猜谜方法(类似语文教学的填空练习)来说明信息熵的基本概念。
假如有:

我们大__都喜__使__计__机。

不用很多努力,就可以猜出完整的句子:

我们大家都喜欢使用计算机。

闪农指出,能猜出来的字符不运载信息,而不能猜出来的字符运载信息。空格所隐藏的字
符属于多余度字符,不用那些字符也能运载该句子的全部信息。多余度大小对信息阅读和
检错抗错有重要的意义。比如:

我__大________使______机。

就很难猜出完整的句子,在信息传递的时候,也很难做检错和抗错。因此,保留合理比例
的多余度是非常重要的。

信息熵方法的基本目的,是找出某种符号系统的信息量和多余度之间的关系,以便能用最
小的成本和消耗来实现最高效率的数据储存、管理和传递。

信息熵是数学方法和语言文字学的结合,基本计算公式是:

H = - LOG 2(P)

其中:H 表示信息熵,P 表示某种语言文字的字符出现的概率,LOG 2是以二为底的对数,
用的是二进制,因而,信息熵的单位是比特(BIT,即二进制的0和1)。

50年代,现代信息论介绍到中国;70年代,中国科学家完成了中文汉字字符信息熵的初步
计算工作,80年代又做了更完整的计算。他们的基本方法是:逐渐扩大汉字容量,根据随
机试验结果的各种概率,使用公式

H = - E(n, r=1) LOG (2) P (r)

来计算熵值H。公式中,H 是静态信息熵,E(n, r=1)是从r 到n 个结果的和,LOG(2)
是以2为底的对数,P(r)是第r 个结果的概率。这个公式是基本公式的一般静态方法,求
到的数值是静态平均信息熵。中国科学家冯志伟等人的计算的结果是:

汉字容量:1 1052  1830   4912   5104  5211  12370

信息熵值:0 7.53  9.52   9.61   9.63  9.64   9.65

随着汉字容量增大,信息熵的增加趋缓;汉字增加到12370以后,不再使信息熵有明显的增
加。通过数理语言学中著名的齐普夫定律(ZIPF'S LAW)核算,这些中国科学家指出,汉
字的容量极限是12366个汉字,汉字静态平均信息熵的值(平均信息量)是9.65比特。这
是当今世界上信息量最大的文字符号系统。下面是联合国五种工作语言文字的信息熵比较:

法 文: 3.98比特
西班牙文: 4.01比特
英 文: 4.03比特
俄 文: 4.35比特
中 文: 9.65比特

可以看出,拼音文字的信息熵小,差别不大。汉字的信息量最大,因而,在信息管理和传递
的时候,中文处于最不利的地位。

三、信息熵的意义

a.数据储存

信息熵原理的直接意义是为信息工程设计提供科学技术的基本依据。就此来说,静态平均信
息熵是基础的基础。例如,在为中文数据管理和传递设计硬件和软件的时候,首先要根据汉
字静态平均信息熵决定如何储存和使用多大的空间来储存汉字字符。汉字的平均信息熵是
9.65比特,每个汉字字符需要两个字节(一个字节等于8 比特)。汉字总量大约有五万六
千个,需要十多万个字节才能保证中文信息的储存和传递有足够的待用字符。目前的中文字
库包括二万多个汉字字符,占用将近4.5万个字节。尽管这个字库还没有包括所有的汉字字
符,却已经是世界上消耗最大和成本最高的字符系统了。此外,汉字还在不断增加,每增加
一个汉字就等于增加一个新的字符,需要增加一个字节来储存。这意味着汉字字符方式很难
为中文信息管理建立长期稳定和规模合理的数据标准,是中文软件产业发生“万码(马)奔
腾”现象的主要技术原因之一。

英文等拼音文字的平均信息熵大都4.5个比特以下,每个字符只占用一个字节。例如英文,
一共有26个字母字符,大小写和各种标点符号都算上,只要90个字节左右就够了,不到中文
字符消耗的千分之一。此外,在增加新的词汇的时候,这些拼音文字不需要增加新的字符,
也不需要增加新的字节消耗,因而能够建立长期稳定和规模合理的数据标准。这是英文等拼
音文字方式更适合信息数据管理的基本技术因素,也是英文等拼音文字软件产业没有发生
“万马(码)奔腾”现象的主要技术原因之一。

b. 数据管理

信息熵大小的另一个重要意义是表明某种字符系统的效率。一般说来,某种文字的字符信息
熵越大,原始数据输入的工作量有可能变得越小,而整体工作效率就越低。

这里用二进制和十进制的数字信息管理说明。二进制只有两个符号,0和1,是规模最小和非
常单一稳定的标准,可原始数据输入的整体工作量也是最大的。比如99这个数,二进制输入
是“1100011”,要七个字符。用十进制,输入是“99”,两个字符。可是,十进制需要十个
数字符号做标准,比二进制的规模大得多。

在做数据管理的时候,二进制的功能强,灵活,而且非常简洁。 然而,二进制的多余度最小,
人阅读起来很困难。十进制的多余度大,适合人类阅读。因此,机器用二进制作业,人用十
进制阅读。

这个对比说明,使用信息量大的字符系统,原始数据输入工作量可以降得很低,其代价是总
体效率大大降低。如果信息量过大,那么,该字符系统就有可能仅仅用来作数据储存和检索,
用来作数据标准,就有很多困难,甚至会失去作标准的可能和意义。

不同信息量的字符系统可以有近似的多余度。据有关专家计算,中文和英文等拼音文字的多
余度基本接近。计算方法是:

R = 1 - H(LMT)/H(0)

其中,R是多余度,H(LMT)是极限熵,H(0)是平均最大熵。由此计算,汉字的多余度是56%
到74%,平均值是65%左右。美国专家BURTON和LICKLIDER 根据闪农的试验方法,算出英文的
多余度在67%到80%,平均为73%左右。中国信息学和语言文字学专家冯志伟和尹斌庸等人指出:
多余度高使语言文字精密,太高了就会造成学习和使用的烦琐与浪费;中文和英文等拼音文
字的多余度相差不大,说明它们的精密度相差不大,因而不存在语素方面的孰优孰劣的问题
(即“汉字优越”是没有科学根据的说法)。可见,造成汉字方式整体效率低的基本因素不
是多余度,而是信息熵。这才是问题的核心。

c. 数据传递

计算机信息传递有两种方式:并联和串联。并联方式是:一个字节的八个比特同时传递,好
像八座门同时打开,八个人同时进出。并联多用在小范围和短距离的数据传递,例如:计算
机和印刷机的联接,一个办公室或一个办公楼内部的计算机联网,等等。并联的好处是速度
快,缺点是成本高。比如,在两个城市或两个国家之间用并联,那么,光是电缆的成本就高
得很,更不要说有关的设施和维护了。无线传递为并联传递提供了更多可能,但是,具体到
收发个体,还是有线并联传递更合算。

串联的方式的成本比并联的要低的多,因而,在大范围和长距离的条件下作数据传递,大都
用串联。串联传递的时候,字符的字节是按照一个个比特来传递的,即一连串的0和1。通讯
收发到一定比特数量,必须确定一个字节是否传递完毕,以便将一连串的0 和1 转换为人可
以阅读的字符。例如,在异步传递一个字节的时候,各个比特的功能是:
  0   1001101  1   1 开始  数据   奇偶   停止

英文等拼音文字的的平均信息熵小于4.5比特,一个字节有八个比特,因此,可以将剩余的
比特用来作奇偶检验和抗错。中文的汉字方式需要两个字节,在建立字库的时候,两个字节
的比特全都用满了,没有剩余的比特来作奇偶检验和抗错。这是中文网络通讯中很容易出现
坏码(不是乱码)的基本原因之一。乱码没有编码损失,可以通过兼容来避免乱码,或者通
过字节重新组合来挽救信息损失;而坏码是编码本身的损失,消减甚至丧失了兼容和字节重
组的可能,很难挽救信息损失,即便能做些弥补,成本也是非常高的。


为了满足多种语言文字网络通讯和防止坏码的需要,国际网络电子邮件广泛采用MIME方式传
递数据。MIME方式的基本工作原理是:按照一定的进制,将所有字符转换成国际通用的七比
特ASCII 字符(7 BIT DATA,剩下的一个比特作奇偶检验),以便能保证传递数据的兼容和
无损。

MIME方式通用于所有的计算机和网络渠道。英文等信息熵小的拼音文字本身就使用ASCII 纯
文本字符,不需要MIME转换。中文字符信息熵大,没有MIME转换就很容易出现乱码或坏码。
转换是有成本消耗的,而汉字方式的成本消耗是世界上最大的。

四、 超级计算机能提高汉字方式的效率吗?

随着计算机的速度、储存和兼容能力等个方面的提高,中文信息管理和传递的困难是否会自
动得到解决呢?不一定。例如,即便我们用四个字节来作国际标准字符集(国际标准组织已
经多次提出这个方案),使每个汉字有足够的比特剩余来作奇偶检验和特性参数,让所有的
计算机和操作系统都能使用,然而,数据全面管理和传递的效率问题依然存在。原因是:

(一)中文数据的文字方式决定了标准的多重性和规模过大,而且,只要汉字还再增加,它
的字符集就是不稳定的。不管一个字符用多少字节,也不管计算机的储存容量有多大,也不
管各种系统的兼容有多么全面,这样的字符集做数据储存和检索还可以,做全面的数据管理
就总是有严重问题。

(二)不管用什么中文输入方法,汉字输入输出的字符仍然需要多次转换,还是高成本和高
消耗的。现有的中文输入方法跟语言文字的标准规范之间的差别依然存在,人的操作和学习
等效率还是没有得到提高。电笔输入作鉴别(如签字)的效果很好,但是,如果数据规模大,
效率就不如键盘操作。声音输入作指令和小规模数据输入还可以,做大规模数据输入,就会
因为劳动强度太大而不现实。更重要的是,键盘操作对思维的影响很小,而声音操作的脑力
消耗比键盘操作的大得多,严重地妨碍思维。微软公司说,它的多媒体电笔和声音输入可以
让中文输入更轻松愉快,那是商业夸张。电笔和声音输入是重要的技术,但是,这些技术突
破并不能取代键盘输入,更不能解决中文的效率问题。

(三)拼音文字的每个字符只要一个字节,现在用两个字节的联码(UNICODE),已经有一个
字节是多余的,在做数据处理和传递的时候,为此多支出了一倍的成本(包括处理多余字节
的程序消耗)。这些多余成本基本是为了迁就中文等亚洲文字的需要。如果用四个字节,就
有三个字节是多余的,使用拼音文字就要多支出三倍的成本。在可见将来,各方面的发展能
否抵消这些多余成本,还不清楚。拼音文字的母语国家是否乐意为了中国汉字的需要而继续
牺牲自己的利益来年复一年地支出更多和毫无回收可能的成本,也不清楚。

(四)通讯传递中,汉字字符由双字节变成了四字节,使原来的成本和消耗增加了一倍,平
衡或抵消了字节增加和速度提高所带来的效益。

中文效率的根本问题不是出在计算机方面,而是出在汉字方式本身。因而,不管用不用计算
机,也不管计算机技术怎么发展,中文的低效率问题依然存在。再说,计算机技术发展,所
有的语言文字都得益,相比之下,原来高效率的文字方式的效率仍然是高效率的,汉字方式
仍然处于不利地位。

五、 信息熵:鉴别微软公司中文产品的有力工具

信息学的基本原理和方法说明,保持文字字符的信息熵和多余度之间的比例关系合理与稳定,
是非常必要的。可是,这十几年,中文软件的发展基本倾向是不断地为输入方法加码和编制
新码,只考虑市场利益,不考虑信息科学技术的基本要求。微软公司搞的“智能”等输入方
法是一个突出代表。例如,该公司说,使用它的“智能”输入方法,只要打出一个或数个汉
字的编码,就能显示出整个词组或句子。微软公司把这样的方法称为“世界级”的高科技。
其实,这种方法不外乎两条:

(一)用数理统计方法列出字符组合的可能,把这些可能储存起来,根据用户打出的特定字
符来寻找和显示这些可能。

(二)用数理统计方法归纳字词之间的联系的可能和频率,建立这些可能和频率的索引,储
存起来,根据用户击键的先后次序,寻找索引,再根据索引调度和显示字符。

这些方法,可以用“对号入座”来比喻。早在八十年代初期,许多英文文软件厂商就已经使
用这些方法了,厂商可以预存各种可能,用户也能根据自己的需要来规定如何“对号入座”
调动字符。作者本人撰写这篇稿件所使用的中文软件,是八十年代初期的美国/加拿大产品,
也早就使用“对号入座”的方法了,而且允许用户自己规定如何“对号入座”。然而,那个
时候,各个厂商从来没有把这些方法称作“智能”技术。基本考虑是:(一)按照信息科学
技术的基本原理来保证信息熵和多余度之间的合理比例关系,保证多余度基本稳定,从而能
保证有长期稳定的和规模合理的数据管理标准。(二)严格说来,“智能”技术是思维和设
备能力的技术,借以完成通常和人类智力有关的一些功能,例如推理、学习和自我改进(见
IBM 《数据处理、通讯和办公系统辞典》)。“对号入座”是重复预存规定的推理和动作,
它的“学习”和“改进”基本上是索引等预存的扩展,并不产生新的能力。

在英文市场,微软公司没有把“对号入座”宣扬成“智能”方法,否则,就会引起大家的笑
话。然而,微软公司却在中国把“对号入座”的方法称作“智能”高科技来到处兜售,还用
了许多数学方法作证明,例如,用统计方法和树理论证明“智能”输入法,用模糊数学证明
词句联系和检测,等等。对没有学过有关数学方法和信息熵理论的人来说,那些新鲜词汇的
确挺吓唬人,以为微软公司的方法可能真的是“世界级”的高科技。然而,如果了解了有关
原理和方法,就能看出,微软公司的作法,不过是把早已有的“对号入座”方法冠以新的时
髦词汇,以此来提高销售量。如果“对号入座”真的是“世界级”的高科技的话,那么,该
公司为什么不在英文市场宣扬和兜售呢?微软公司的“世界级”高科技中文软件到底如何?
事实最能说服人。让我们来看一个例子。下面的段落是从微软公司的中文新闻报告(1999年
3月4日)中直接摘录的:

“中文处理能力有重大突破----Office 2000在中文处理方面也有重大突破。Office 2000中
文版 集成了最新的微软拼音输入法2.0并首次引进中文的语法校对和拼 写检查。使得用户
可以使用使用鼠标而无须其他设备来实现中文手 写输入;并成功实现了基于Unicode的繁体
中文简体中文之间的相互 转换,为全球范围炎黄子孙进行中文交流提供了更有力的工具;
汉语拼音的注音功能则为中文基础教育提供了方便。”

受过基础语文教育的人都能看到,这段话有不少基本常识的错误。例如:第二句里的“集成
了”应该是“汇集了”。“使得用户可以使用使用……”一句当中,“使得”用词不当,
“使用”一词重复,而且,这个句子没有主语,标点用了分号,使后面的并列句全都成了没
有主语的错句。同时,有的并列句在分号后面用“并”,后来的又不用连接词了。在“并成
功实现了……相互转换”一句中,“繁体中文”与“简体中文”中间少了“和”字。“为全
球范围炎黄子孙进行中文交流提供了更有力的工具”一句当中,“进行中文交流”,应该是
“使用中文交流”;“提供了更有力的工具”的“更”字,事先没有列出比较对象,是多余
的。这些都不符合中文的基本常识和规范。从写作方面来看,这段话写得很别扭,不通顺,
很难上口朗读。此外,所谓“汉语拼音的注音功能”是中国科学家早在四十多年前就已经完
成、并且在一九五八年就被确定为中国国家标准的一部分,根本不是微软公司的发明和“突
破”,而是微软公司在盗版侵权,把国家标准归为自己所有。

这么短短的一段新闻报导,错误如此之多,微软公司的所谓“中文处理能力的重大突破”到
底是什么?它用那些数理统计、树理论和模糊数学等方法证明的高科技,搞出来的结果就是
这个样子?这就是它的“世界级”的“智能”技术水平吗?

从信息论的角度看,微软公司中文软件系列的“智能”方法造成了不少误导:它把人们的注
意力转移到中文的多余度方面,忽略包括信息熵在内的信息科学技术的整体;它破坏了中文
多余度的合理比例和相对稳定,违背了信息科学的基本原理;它的方法违反了国家颁布的语
言文字的基本规范,增加了数据管理的消耗和成本,加大了中文语言文字学习和使用之间的
差距,对中国的文化教育等公共事业造成了巨大损失。不管微软公司用多少时髦词汇来描述
它的中文软件产品,微软“定量炸弹”对中文信息产业的威胁依然存在。

六、 文艺复兴:中文信息产业基础建设的战略条件

从以上阐述可以看出,汉字信息量大,是中文信息管理和传递成本高、消耗大和效率低的基
本原因。汉字为中国文明的延续发展发挥了巨大的历史作用。今天,汉字方式是阻碍中文信
息科学技术发展的头号困难因素。中国可以在信息工业的机械设计和制作方面赶上世界先进
水平,然而,如果不能摆正和改善中文的信息熵和多余度之间的关系,那么,中国的信息产
业的整体就总是低效率的,就总得跟着别人后面走,难免挨打。一些美国人担心中国发展计
算机和导弹技术会造成“中国威胁”,那的确是夸张了。即便把美国所有的计算机技术和导
弹技术都交给中国,只要中国还是按照汉字方式来操作,那么,在计算机和导弹技术方面,
中国就总是处于不利地位,总是赶不上美国。中国火箭导弹技术专家钱学森等人早就说过:
如何提高中文效率是关系到国家安全的战略大事。

许多从事中文信息熵研究的科学家们说:中国失去了整整一个打字机时代(工业革命),对
中国的综合国力建设带来了不利条件。在计算机信息时代,汉字方式和现代科学技术矛盾更
加深化了,其中最大的问题是如何利用信息熵的原理和方法来优化中文数据的管理和传递,
其中包括文字方式和书写工具(例如计算机)的最优结合。这是中国科学家近30年之久的中
文信息论研究的经验,其中有些科研成果受到了国际科学界的承认和高度重视。面对日益强
盛的信息时代的挑战,中国科学家是有充分准备的。如果中国能按照原来准备好了的方向发
展,那么,中国的信息产业(包括软件产业)就会避免许多弯路,微软公司对中国软件市场
的误导作用和它的“定量炸弹”的威胁也不会那么严重。

然而,这些年来,中国有些报刊杂志望文生义,以为“汉字信息量大”是好事情,把它作为
鼓吹“汉字文化”和“汉字优越”论的依据,甚至把这些违背科学技术基本原理的东西贴上
爱国主义的标签。这种作法极大地误导了人们对信息科学技术的理解。微软公司最关心的是
中国市场的利润,而不是中文信息科学技术的前途。“汉字优越”论鼓动人们不要去过问中
文信息产业发展的基础科学技术问题,对微软公司来说,是正中下怀,为微软公司渗透和控
制中文软件市场提供了重要的文化条件和舆论条件。

信息科学技术跟语言文字息息相关,它的发展对许多国家的传统文化提出了挑战,包括对美
国一类信息工业大国的挑战。中国的历史悠长,文字方式独特,自然就受到最严峻的挑战。
面对科学技术的挑战,就要用科学技术的发展来迎战,用极端民族主义的作法回应挑战,最
后总是失败,传统文化最后也还是保不住。

国家主席江泽民多次提出,中国要成为现代化的富强国家,就要有文艺复兴。这个号召有非
常重大的意义,不但指明了中国民族传统文化延续和发展的唯一出路,而且也为中文信息产
业的基础建设提出了方向性的战略课题。文艺复兴不是文化复古,而是在本国历史的基础上
吸收各种文化的长处,自我革新,向前发展。文艺复兴的一个基本内容是文字方式必须符合
时代发展的需要。“汉字文化”和“汉字优越”论所提倡的不是中国的文艺复兴,而是在鼓
吹文化复古;不是有利于科教兴国,而是在加重中国信息科学技术发展所面临的困难,特别
是加重了政治和文化方面的困难。没有对汉字方式和传统文化的正确认识,就很难搞好中文
信息产业的基础建设。

中国政府可以通过法律、标准和专利等手段来为中文软件和中文信息产业的发展提供环境保
护,民间可以用罢购、产品替换和文学作品等方式抵制外来货。然而,“发展才是硬道理。”
中文软件和中文信息产业到底能不能在日益全球化的竞争中幸存,最后还得看自己的基础建
设搞得怎么样。就目前和可见将来的状况来说,中文信息产业基础建设的中心课题,就是要
利用信息熵的基本原理和方法来提高中文的效率,铲除微软公司“定量炸弹”的潜在威胁。
为此,把握住文艺复兴的战略方向,防止文化复古潮流的干扰,是搞好中文信息产业基础建
设所必需的和非常重要的文化条件。

【基本参考资料】

(1)THE MATHEMATICAL THEORY OF COMMUNICATIONS,by C.SHANNON,1949。
(2)D·A·HUFFMAN “A METHOD FOR THE CONSTRUCTION OF MINIMUM REDUNDANCY CODES”,1952。
(3)《现代汉字和计算机》,冯志伟著,北京大学出版社出版。

(原载ChinaByte专栏文章频道)


作者:安普若海归商务 发贴, 来自【海归网】 http://www.haiguinet.com









相关主题
中国公司海外上市系列:新濠国际:澳门赌王内地产业链雪崩 (转帖) 海归商务 2012-1-23 周一, 13:06
猎头职位:北京美企招聘 资深Java软件工程师(待遇职业平台非常好) 海归职场 2010-8-06 周五, 15:46
风电行业:第一妖股金风科技妖性渐失 PE暴赚撤退酿风险(转帖) 海归主坛 2010-1-11 周一, 09:21
旅游娱乐业:黑石27亿美元收购百威英博旗下主题公园部门(转帖) 海归主坛 2009-10-13 周二, 11:40
中国公司海外上市系列:网游网赴美上市在即 竞争激烈影响业绩前景(转帖) 海归主坛 2009-3-30 周一, 12:39
中国公司海外上市系列:大庆民企钟情海外上市 看好新加坡创业板市场(转帖) 海归主坛 2007-9-11 周二, 02:05
【热闹了】联合早报网:中国《财经》杂志误报麦达斯董事长陈维平陷商业贿赂案(转贴) 海归主坛 2007-7-19 周四, 20:18
行业动态:沈南鹏有点烦——央视紧急停播百集大型武侠动画(转贴) 海归论坛 2007-3-02 周五, 21:20

返回顶端
阅读会员资料 安普若离线  发送站内短信 发送电子邮件 浏览发表者的主页 QQ号码什么是QQ号码? MSN
显示文章:     
回复主题   printer-friendly view    海归论坛首页 -> 海归商务           焦点讨论 | 精华区 | 嘉宾沙龙 | 白领丽人沙龙 所有的时间均为 北京时间


 
论坛转跳:   
不能在本论坛发表新主题, 不能回复主题, 不能编辑自己的文章, 不能删除自己的文章, 不能发表投票, 您 不可以 发表活动帖子在本论坛, 不能添加附件不能下载文件, 
   热门标签 更多...
   论坛精华荟萃 更多...
   博客热门文章 更多...


海归网二次开发,based on phpbb
Copyright © 2005-2024 Haiguinet.com. All rights reserved.