bst365体育对香农关于信息的定义的两点疑惑

 bst365资讯     |      2021-12-05 09:07

  拜读了桂兆焜教师在伴侣圈直达发的华东师大王荣良教师的《谈谈信息的襟怀》一文和桂教师的批评,很有启示。

  记恰当年(那仍是在2001年阁下,一转眼快近二十年了吧),在编写上海市中小学第一套《信息科技》课本(上海科技出书社版?)时,就“信息”的界说不断争辩不休。也已经就教过上海滩受骗时一些威望的计较机和计较机教诲专家,如复旦的施伯乐传授、华东师大的汪燮华校长、王吉庆传授等,固然也查阅了一些文献材料,此中首当其冲的就是香农的对信息的界说和“熵”的定量形貌。最初各人的定见根本上是分歧的:不作界说。由于内在太丰硕,内涵太浪费,作为一个观点,很难精确界说。就像“人”这个观点一样。不作界说,或许是最明智的。

  2017版上海《高中信息科技》(第一册)课本第一章第一节“信息与信息处置”中,援用香农对信息的形貌“信息是可以用来消弭不愿定性的工具”,而且指出:香农关于信息的界说提醒了信息的感化,也供给了一种权衡信息的办法,即利用消弭不愿定性的几来权衡信息。课本提出“甚么是信息”,是为论述信息处置等观点作铺垫。课本没有对信息襟怀的定量计较作进一步的论述,是由于高中门生缺少了解这些内容的根底。

  克劳德·艾尔伍德·香农(Claude Elwood Shannon)天然是巨大的,他第一次将熵的观点引入到信息论中来。1948年香农长达数十页的论文《通讯的数学实际》(《A Mathematical Theory of Communication》)成了信息论正式降生的里程碑。在他的通讯数学模子中,分明地提出了信息的襟怀成绩。1949年,香农又在统一杂志上揭晓了另外一出名论文《噪声下的通讯》(《Communication in the Presence of Noise》)。在这两篇论文中,香农阐清楚明了通讯的根本成绩,给出了通讯体系的模子,提出了信息量的数学表达式,并处理了信道容量、信源统计特征、信源编码、信道编码等一系列根本手艺成绩。这两篇论文成了信息论的奠定性著作。

  香农在停止信息的定量计较的时分,明白地把信息量界说为随机不定性水平的削减。这就表清楚明了他对信息的了解:信息是用来削减随机不定性的工具;或香农逆界说:信息是肯定性的增长。但该当指出的是,固然香农的信息观点比以往的熟悉有了宏大的前进,但仍存在范围性,由于严厉来讲,香农的这句话并没有答复“信息是甚么”这个作为一个界说观点必需答复的成绩。这一观点一样没有包罗信息的内容和代价,只思索了随机的不定性。这并非香农有甚么疏漏,究竟上,香农写文章的初志只是为理解决通讯中的一些实践成绩。假如你有爱好,并且充足耐烦的话,认真读一下他的这两篇长文,就不克不及不为他的先天服气。可就是如许的恢宏巨著,当初却已经被拒之门外,审稿者称:……which seems to indicate that his theory is suitable mostly for transmitting gibberish.(gibberish:颠三倒四;)(详情见我的另外一博文。)

  有学者对香农的形貌提出了一些贰言,就连香农本人也请求人们在使用这类形貌时要慎重为之,该当是不无原理的。

  (“自大息率”也能够界说为由给定的随机历程发生的特定的动静或标记序列:在一个牢固的历程的状况下,它老是即是熵率。)

  其他数目的信息也被用来比力或联系关系差别的信息滥觞。主要的是不要混合上述观点。而在凡是状况下,只能从它们自己的状况明白指出时才气清楚明了。比方,当有人说英语的“熵”是每一个字符约莫1位时,他们实践上是将英语言语建模为一个随机历程,并以此来议论它的熵率。bst365体育直播香农本人也是如许利用这个术语的。

  虽然熵凡是被用来作为数据源信息内容的表征,但这类信息内容并非绝对稳定的:枢纽还得取决于几率模子。始毕生成不异标记的源具有0的熵率,但标记的界说取决于字母怎样组合。思索一个发生字符串ABABABABAB……的源,此中一个A的前面老是跟跟着一个B,反之亦然。假如几率模子以为每单个字母是自力的,则序列的熵率是每一个字符1比特。可是假如序列被以为是“AB AB AB AB AB……”双字符块构成的序列,那末熵率是每一个字符0比特。

  可是,假如我们利用十分大的字符块,则每一个字符熵率的估量就可以够报酬地变得十分低。这是由于实践上,序列的几率散布并非肯定的;这只是一个揣测罢了。比方,假定将一切出书的书的文本视为一个序列,每个标记都代表一本完好的书的文本。假如有N本书出书,每本书只出书一次,每本书的几率估量则为1/N,那末熵(位)则为-log2(1/N)=log2(N)。作为一个有实践意义的代码来看,这相称于不管什么时候有人想参阅这些书,曾经为每本书分派了一个独一的标识符,并用它来替代该书的文本。这关于谈及团体册本来讲长短常有效的,可是关于形貌单本册本的信息内容或凡是的言语来讲就没有甚么意义了:由于不克不及够在不晓得几率散布的状况下仅仅从其一个标识符来重修该册本,即规复一切册本的局部文本。枢纽的设法是必需思索几率模子的庞大性。Kolmogorov庞大性就是这个思惟的实际归纳综合,它许可思索与任何特定几率模子无关的序列的信息内容;它思索了输出序列的通用计较机的最短法式。由给定模子的序列的熵率再加上码本(即几率模子)而完成的编码就是如许一个法式,但它能够不是最短的。

  比方,斐波那契数列:1,1,2,3,5,8,13......。把这个序列看做是一条动静,此中每个数作为一个标记,动静中的标记数目险些和字符一样多,因而得出一个约莫为log2(n)的熵。以是斐波纳契数列的前128个标记序列的熵约莫为7位/标记。但是,关于n=3,4,5,……,F(1)=1,F(2)=1,序列的每项能够利用公式[F(n)=F(n-1)+F(n-2)]来表达,这个公式则有一个低很多的熵,并且合用于任何长度的斐波纳契数。

  在暗码阐发中,熵凡是被大略地用来权衡密钥的不成猜测性,虽然实在践上的不愿定性是不成丈量的。比方,散布平均的随机天生的128位密钥具有128位的熵。这也需求(平均的)——推测,以经由过程蛮力来破解。但是,假如没有散布平均的挑选能够的密钥,熵就不克不及捕捉所需的推测次数。能够利用称为推测的次数来代替权衡蛮力进犯所需的勤奋水平。

  来自暗码学中利用的不服均散布还能够激发其他成绩。比方,思索一个1000000位二进制公用或独用的数字键盘。假如键盘有100万比特的熵,那就十分完善了。假如该键盘具有999999比特的熵,并且平均散布(该键盘的每一个比特具有0.999999比特的熵),它能够供给优良的宁静性。可是,假如键盘有999999比特的熵,此中第一个比特是牢固的,其他的999999比特是完整随机的,那末密文的第一个比特底子就不会被加密。

  假如仅仅晓得一本书的页数和字数,是很难对其包罗的信息量作出公道的量化判定的。由于起首就难以肯定“字符块”,然后也很难“估量”出每块的几率。假如它字字珠玑,信息量天然就大;而相反,假如它的内容须生常(长)谈,信息量天然不会很大;假如是一本剽窃他人功效大概吠形吠声的书,那它的信息量就近乎为零;更有甚者,假如满书颠三倒四,能量为“负”,那必定就得“”了,香农的“熵”也救不了你。

  1938年香农在MIT(麻省理工学院)得到电气工程硕士学位,硕士论文标题问题是《A Symbolic Analysis of Relay and Switching Circuits》(《继电器与开关电路的标记阐发》)。其时他曾经留意到德律风交流电路与布尔代数之间的相似性,即把布尔代数的“真”与“假”和电路体系的“开”与“关”对应起来,并用“1”和“0”来暗示。因而他用布尔代数阐发并优化开关电路,这就奠基了数字电路的实际根底。哈佛大学的Howard Gardner传授说,“这多是本世纪最主要、最出名的一篇硕士论文。”

  而他其时年仅22岁!(香农的博士论文竟然是《An Algebra for Theoretical Genetics》(《实际遗传学的代数学》),可见他触及的范畴有多“博”!)

  冯·诺依曼的机型加上克劳德·香农的数字电路,才有了天下上的第一台数字通用电子计较机,才使计较机有了经由过程电路来处理险些一切的庞大成绩(固然,除豪情和肉体)的能够。由于统统庞大的运算都可化为算术和逻辑运算,而二进制的运算皆可以使用数字电路来完成。

  (1)信息的量子化。我们用“1”和“0”完成了信息的电子化(即数字化),由于电的不变形态有也只要两种——用“1”表“开”;用“0”表“关”(反之亦然)。那末信息该怎样公道而有用地量子化呢?岂非还非得用二进制数?大概底子就不应当利用这烦人的二进制?

  (2)量子运算。香农等人在优化数字电路,即完成布尔运算方面作了大批实在有用的事情,使一切的算术和逻辑运算经由过程电路的“与”、“或”、“异或”、……等简朴的操纵得以完成。那末,量子运算又怎样来完成的呢?

  我不晓得现在新版的高中信息科技课本是怎样来说述这些内容的。但不管怎样,对这一学科的西席来讲,信息的界说终究怎样适宜并非甚么大事,而这一些成绩倒确实是迫在眉睫亟待处理的十万火急。由于收集上漫山遍野充溢的都是貌同实异的有关“量子计较机”的信息,另有就是“AI”的奇异传说。假如计较一下这些信息的“熵”值,近乎为零。

  (有关香农和“熵”的具体引见,可参阅自己的另外一篇博文《克劳德·香农和信息论和鲁道夫·克劳修斯和熵》)