教授给了我一份研究论文,展示了一种有效压缩某种数据的方法。没有必要提出完整的算法,因为问题不关乎此,我仅介绍一个小例子,让您不了解真正的问题是什么。
我们的压缩算法有一个自己的字典,它是一个表(无论如何计算,只要假定压缩器和解压缩器都具有它),每个表行都有一个字符串。为了压缩消息的压缩程序将打开它并从头开始,它将在字典中搜索匹配项,并最终发送带有行ID的MATCH消息,如果未找到任何内容,则设置带有要设置的消息的SET消息。已发送。请注意,MATCH并不一定要完全匹配,它们后面可以跟许多MISSMATCH消息,每个消息都包含错误的字节偏移量和正确的字节。
例如,压缩程序可能要编码:
[现在,他们在论文中说,他们使用LZMA对该数据的“流”进行熵编码,并且他们认为在不提供更多细节的情况下这是一件微不足道的事情。
我已经在网上搜索过,但没有提出任何建议。您对如何完成最后一步有任何想法吗?你有参考吗?
[作为本开源项目的一部分,有一种使用LZMA的带有预设字典的流压缩算法:Zip-Ada。预设字典在此处称为“训练数据”。