近似字符串压缩率的次线性算法
数据结构与算法
2007-06-11 v1
摘要
我们提出了在次线性时间内,针对固定压缩方案近似计算字符串压缩率的问题。我们针对两种流行的无损压缩方案——游程编码(RLE)和Lempel-Ziv(LZ)——详细研究了这一问题,并提出了针对这两种方案近似压缩率的次线性算法。我们还给出了若干下界,表明我们针对这两种方案的算法无法得到显著改进。我们对LZ的研究得出的结果,其意义超出了我们最初设定要研究的问题。具体而言,我们证明了组合结构引理,将字符串相对于Lempel-Ziv的压缩率与其包含的不同短子串数量联系起来。此外,我们证明了相对于LZ近似压缩率与近似分布支撑集大小有关。
引用
@article{arxiv.0706.1084,
title = {Sublinear Algorithms for Approximating String Compressibility},
author = {Sofya Raskhodnikova and Dana Ron and Ronitt Rubinfeld and Adam Smith},
journal= {arXiv preprint arXiv:0706.1084},
year = {2007}
}
评论
To appear in the proceedings of RANDOM 2007