信息熵不就是理论根据么,就跟火箭公式一样,信息熵能证明你最大的压缩率是多少,往那个方向努力。
数据压缩本质是提取共同特征,
比如 我有数据 "AAAAAAABBBBBBBCCCCCCCDDDDDDD" 共28B,
然后软件定义了一套算法 * x n,表示有 n 个 *,
那么上面就可以压缩为 “Ax7Bx7Cx7Dx7” 共 共12B,压缩率 12/28 = 42%
进一步,可以把“xn”,也提取出来,类似ipv6一样把它缩写,第一行写数据,第二行写每个数据的数量
ABCD
7:
现在算上换行只有7B了,压缩率 7/28 = 25%,只有原来的1/4了
实际情况肯定没这么理想,数据会交叉,各种字符。
随便搜的文章,可以参考下
哈夫曼编码及其应用——数据压缩
https://zhuanlan.zhihu.com/p/144562146