ディレクトリ内のすべてのテキストファイルを比較し、類似性に基づいてソートします。

ディレクトリ内のすべてのテキストファイルを比較し、類似性に基づいてソートします。

Unixでは、ディレクトリ内のすべてのテキストファイルをディレクトリ内の他のすべてのテキストファイルと比較し、(ユーティリティを使用してdiff)類似性に基づいて各ペアをソートする方法はありますか?ディレクトリ内の重複ファイルを見つけることができるコマンドラインUnixプログラム(fdupesなど)が既に存在していますが、同様のファイルを見つけるためにシェルスクリプトを使用することができるかどうか疑問に思います。

答え1

この質問は、いくつかのレベルで広すぎると思います。 「違い」という用語は、データ型とそのコンテナ(txt、mp3、avi、jpg)によって異なります。それぞれに独自の処理方法を実装する必要があります。たとえば、テキストまたはソースコードファイルにはdiffユーティリティのみが必要です。音楽、ビデオ、画像ファイルにはファジィロジックとコンピュータ学習アルゴリズムが必要です。

関連情報