重複ファイルを見つける最も効率的な方法は何ですか？

Question 1

FSリントバックエンドはfindupあなたに必要なものかもしれません。

FSlintはファイルをスキャンし、さまざまなサイズのファイルをフィルタリングします。次に、正確に同じサイズの残りのファイルをチェックして、ハードリンクではないことを確認します。ユーザーが結果を「マージ」することを選択すると、以前の検索でハードリンクファイルが生成されることがあります。 FSlintは、ファイルがハードリンクではないと判断した場合、md5sumを使用してファイルにさまざまな署名があることを確認します。 md5sum 競合を防ぐために、FSlint は sha1sum 検査を使用して残りのファイルの署名を再検査します。

https://booki.flossmanuals.net/fslint/ch004_duplicates.html

Answer

FSリントバックエンドはfindupあなたに必要なものかもしれません。

FSlintはファイルをスキャンし、さまざまなサイズのファイルをフィルタリングします。次に、正確に同じサイズの残りのファイルをチェックして、ハードリンクではないことを確認します。ユーザーが結果を「マージ」することを選択すると、以前の検索でハードリンクファイルが生成されることがあります。 FSlintは、ファイルがハードリンクではないと判断した場合、md5sumを使用してファイルにさまざまな署名があることを確認します。 md5sum 競合を防ぐために、FSlint は sha1sum 検査を使用して残りのファイルの署名を再検査します。

https://booki.flossmanuals.net/fslint/ch004_duplicates.html

Question 2

リントファイルシステムで重複排除などを実行し、後続の実行を高速化するために必要に応じてxattrsを介して情報をキャッシュし、カスタム方法で使用できるようにメタデータをjson形式で提供できる非常に効果的なツールです。

rmlint finds space waste and other broken things on your filesystem and offers to remove it. It is able to find:

Duplicate files & directories.
Nonstripped Binaries
Broken symlinks.
Empty files.
Recursive empty directories.
Files with broken user or group id.

~からユーザーマニュアル—rmlint

Answer

リントファイルシステムで重複排除などを実行し、後続の実行を高速化するために必要に応じてxattrsを介して情報をキャッシュし、カスタム方法で使用できるようにメタデータをjson形式で提供できる非常に効果的なツールです。

rmlint finds space waste and other broken things on your filesystem and offers to remove it. It is able to find:

Duplicate files & directories.
Nonstripped Binaries
Broken symlinks.
Empty files.
Recursive empty directories.
Files with broken user or group id.

~からユーザーマニュアル—rmlint

Question 3

はい、サイズが他のファイルと一致すると、md5全体が生成されるようです。これは無駄につながる可能性があります。大容量ファイルの場合、より効率的なアプローチは、最初のチャンクをmd5し、一致する場合にのみ詳細を調べることです。

つまり、サイズを確認し、一致すると最初のブロック（512k）のmd5を確認し、一致すると次の2つのブロック（1024k）のmd5を確認します。

Answer

はい、サイズが他のファイルと一致すると、md5全体が生成されるようです。これは無駄につながる可能性があります。大容量ファイルの場合、より効率的なアプローチは、最初のチャンクをmd5し、一致する場合にのみ詳細を調べることです。

つまり、サイズを確認し、一致すると最初のブロック（512k）のmd5を確認し、一致すると次の2つのブロック（1024k）のmd5を確認します。

重複ファイルを見つける最も効率的な方法は何ですか？

答え1

答え2

答え3

関連情報