時間が経つにつれて、gz圧縮率は向上しますか?

時間が経つにつれて、gz圧縮率は向上しますか?

何百万もの非常に似た行ストリームを生成するプロセスがあります。に転送する予定ですgz。このような設定では、時間の経過とともに圧縮率が向上しますか?つまり、10,000 個の類似行より 100 万個の類似行の圧縮率が良いですか?

答え1

それはある程度効果があり、均一になるでしょう。圧縮アルゴリズムは、見るブロックのサイズ(bzip2)および/または以前のモード情報を含む、保存するテーブル()にgzip制限があります。

gzip の場合、テーブルがいっぱいになると前のエントリが押され、圧縮はもはや改善されません。圧縮性能指数(-0〜)と入力の繰り返し性によっては、-9このパディングはもちろん時間がかかり、気づかないことがあります。

答え2

あまり。 DEFLATEアルゴリズムが適用される「距離」はgzip32KBに制限されます。

ウィキペディアリンク - >収縮

さまざまな圧縮レベルをgzipベンチマークして検討する価値があります。圧縮パッケージ2そしてxz

答え3

これはgzipアルゴリズムの概要

つまり、ハッシングに必要な初期データを考慮しても大幅に改善されません。

関連情報