中国开发网: 论坛: 程序员情感CBD: 贴子 154914
haitao
已经假设伪随机数是无法压缩的了。。。如果你知道压缩是通过一个编码表来实现的话,你就真的理解了
在这个前提下,2个字节的伪随机数0x3f 0x8d被格式化为3F.8D.共6字节
理想的通用压缩算法将把它们压缩为2个字节,也就3:1
(上面的2字节只是为了举例)

所以,根本没有指望rar能压缩伪随机数
而是指望rar能把形为XX.的数据压缩为1/3大小。。。

这个绝对不是奢望:XX里出现的只能是00-FF这256种可能,还有就是一个固定的空格
即使按最原始的编码压缩算法--霍夫曼编码,也能压缩一半(这个要计算一下。。。):


4.8 霍夫曼编码
霍夫曼编码是可变字长编码(VLC)的一种。 Huffman于1952年提出一种编码方法,该方法完全依据字符出现概率来构造异字头的平均长 度最短的码字,有时称之为最佳编码,一般就叫作Huffman编码。下面引证一个定理,该定 理保证了按字符出现概率分配码长,可使平均码长最短。
 定理:在变字长编码中,如果码字长度严格按照对应符号出现的概率大小逆序排列,则其平 均码字长度为最小。
 现在通过一个实例来说明上述定理的实现过程。设将信源符号按出现的概率大小顺序排列为 : 

U: ( a1 a2 a3 a4 a5 a6 a7 )
0.20 0.19 0.18 0.17 0.15 0.10 0.01

 给概率最小的两个符号a6与a7分别指定为“1”与“0”,然后将它们的概率相加再与原来的 a1~a5组合并重新排序成新的原为:


U′: ( a1 a2 a3 a4 a5 a6′ )
0.20 0.19 0.18 0.17 0.15 0.11


 对a5与a′6分别指定“1”与“0”后,再作概率相加并重新按概率排序得
U″:(0.26 0.20 0.19 0.18 0.17)…
 直到最后得 U″″:(0.61 0.39)
 分别给以“0”,“1”为止,如图4-4所示。}
 霍夫曼编码的具体方法:先按出现的概率大小排队,把两个最小的概率相加,作为新的概率 和剩余的概率重新排队,再把最小的两个概率相加,再重新排队,直到最后变成1。每次相 加时都将“0”和“1”赋与相加的两个概率,读出时由该符号开始一直走到最后的“1”, 将路线上所遇到的“0”和“1”按最低位到最高位的顺序排好,就是该符号的霍夫曼编码。




 例如a7从左至右,由U至U″″,其码字为0000;
 a6按践线将所遇到的“0”和“1”按最低位到最高位的顺序排好,其码字为0001…
 用霍夫曼编码所得的平均比特率为:Σ码长×出现概率
 上例为: 0.2×2+0.19×2+0.18×3+0.17×3+0.15×3+0.1×4+0.01×4=2.72 bit
 可以算出本例的信源熵为2.61bit,二者已经是很接近了。
我的blog:http://szhaitao.blog.hexun.com & http://www.hoolee.com/user/haitao
--以上均为泛泛之谈--
不尽牛人滚滚来,无边硬伤纷纷现 人在江湖(出来的),哪能不挨刀(总归是要的)
网络对话,歧义纷生;你以为明白了对方的话,其实呢?

您所在的IP暂时不能使用低版本的QQ,请到:http://im.qq.com/下载安装最新版的QQ,感谢您对QQ的支持和使用

相关信息:


欢迎光临本社区,您还没有登录,不能发贴子。请在 这里登录