何百万もの非常に似た行ストリームを生成するプロセスがあります。に転送する予定ですgz
。このような設定では、時間の経過とともに圧縮率が向上しますか?つまり、10,000 個の類似行より 100 万個の類似行の圧縮率が良いですか?
答え1
それはある程度効果があり、均一になるでしょう。圧縮アルゴリズムは、見るブロックのサイズ(bzip2
)および/または以前のモード情報を含む、保存するテーブル()にgzip
制限があります。
gzip の場合、テーブルがいっぱいになると前のエントリが押され、圧縮はもはや改善されません。圧縮性能指数(-0
〜)と入力の繰り返し性によっては、-9
このパディングはもちろん時間がかかり、気づかないことがあります。
答え2
あまり。 DEFLATEアルゴリズムが適用される「距離」はgzip
32KBに制限されます。
答え3
これはgzipアルゴリズムの概要。
つまり、ハッシングに必要な初期データを考慮しても大幅に改善されません。