私は重複するより長いログファイルを持っていることがよくあります。重複とは、テキストブロックが小さな変更で繰り返されることを意味します。ファイルの長さのため、実際の情報を見つけるのは難しいです。私の考えは、重複を識別し、各重複をdiff出力の連続ブロックに置き換えてファイルを減らすことができるスクリプトを作成することです。始める前に、そのようなツール(またはdiffオプション)がすでに存在するかどうかを知りたいです。
答え1
同様の問題に対するDrenchユーザーのアプローチを調べることをお勧めします。彼はこのサイトで次のように言いました。https://unix.stackexchange.com/a/837/27616(つまり、git
.を使用すると、相違点のみを保存し、時間に合わせてすべてのバージョンを検索するなどの作業が可能です。
答え2
あなたは主に探すログファイルから必要な情報を削除するのは良い考えではありません。たとえば、logrotate
一定期間(毎月)後にログファイルを置き換えてGoogleに「Unixログファイルの検索」を要求すると、約500万件のヒットが発生するツールがあります(これは一般的な作業です)。