中国开发网: 论坛: 程序员情感CBD: 贴子 154787
haitao
免费普及了。。。信息熵
--没想到今天有2个老人同时迷糊了。。。

http://zh.wikipedia.org/wiki/%E4%BF%A1%E6%81%AF%E8%AE%BA

信息论
维基百科,自由的百科全书
信息论是运用概率论与数理统计的方法研究信息、信息熵、通信系统、数据传输、密码学、数据压缩等问题的应用数学学科。

信息论将信息的传递作为一种统计现象来考虑,给出了估算通信信道容量的方法。信息传输和信息压缩是信息论研究中的两大领域。这两个方面又由信息传输定理、信源-信道隔离定理相互联系。

香农(Claude Shannon, 1916-2001)被称为是“信息论之父”。人们通常将香农于1948年10月发表于《贝尔系统技术学报》上的论文《通信的数学原理》作为现代信息论研究的开端。这一文章部分基于哈里·奈奎斯特和拉尔夫·哈特利先前的成果。在该文中,香农给出了信息熵(以下简称为“熵”)的定义:

H = - ∑ pilogpi
i

这一定义可以用来推算传递经二进制编码后的原信息所需的信道带宽。熵度量的是消息中所含的信息量,其中去除了由消息的固有结构所决定的部分,比如,语言结构的冗余性以及语言中字母、词的使用频度等统计特性。

信息论中熵的概念与物理学中的热力学熵有着紧密的联系。玻耳兹曼与吉布斯在统计物理学中对熵做了很多的工作。信息论中的熵也正是受之启发。

互信息(Mutual Information)是另一有用的信息度量,它是指两个事件集合之间的相关性。两个事件X和Y的互信息定义为:

I(X,Y) = H(X) + H(Y) - H(X,Y)
其中 H(X,Y) 是联合熵(Joint Entropy),其定义为:

H(X,Y) = - ∑ p(x,y)logp(x,y)
x,y

互信息与多元对数似然比检验以及皮尔森χ2校验有着密切的联系。


http://zh.wikipedia.org/wiki/%E4%BF%A1%E6%81%AF%E7%86%B5

熵 (信息论)
维基百科,自由的百科全书
(重定向自信息熵)

熵的概念最先在1864年首先由克劳修斯提出,并应用在热力学中。后来在1948年由克劳德·艾尔伍德·香农第一次引入到信息论中来。

[编辑]
定义
熵在信息论的定义如下:

如果有一个系统S内存在多个事件S = {E1,...,En}, 每个事件的概率分布 P = {p1, ..., pn},则每个事件本身的信息为

Ie = - logpi
如英语有26个字母,假如每个字母在文章中出现次数平均的话,每个字母的信息量为


(对数以2为底,单位是比特);而汉字常用的有2500个,假如每个汉字在文章中出现次数平均的话,每个汉字的信息量为



整个系统的平均信息量为


这个平均信息量就是信息熵。因为和热力学中描述熵的玻耳兹曼公式一样,所以也称为熵

如果两个系统具有同样大的信息量,如一篇用不同文字写的同一文章,由于是所有元素信息量的加和,使用汉字的应用的汉字就比使用英文字母的使用的字母要少。所以汉字印刷的文章要比其他应用总体数量少的字母印刷的文章要短。即使一个汉字占用两个字母的空间,汉字印刷的文章也要比英文字母印刷的用纸少。

实际上每个字母和每个汉字在文章中出现的次数并不平均,因此实际数值并不如同上述,但上述计算是一个总体概念。使用书写单元越多的文字,每个单元所包含的信息量越大。

参见:熵 (生态学)和熵 (热力学)
我的blog:http://szhaitao.blog.hexun.com & http://www.hoolee.com/user/haitao
--以上均为泛泛之谈--
不尽牛人滚滚来,无边硬伤纷纷现 人在江湖(出来的),哪能不挨刀(总归是要的)
网络对话,歧义纷生;你以为明白了对方的话,其实呢?

您所在的IP暂时不能使用低版本的QQ,请到:http://im.qq.com/下载安装最新版的QQ,感谢您对QQ的支持和使用

相关信息:


欢迎光临本社区,您还没有登录,不能发贴子。请在 这里登录