FSlintを使用してファイルサイズでのみ重複エントリを探していますか？

Question 1

FSlint はこれらすべての比較をサポートしますが、設定は許可されません。常にこれらすべての情報を使用して重複を排除します。

findupこれはそれ自体がシェルスクリプトであり、各比較は別々です。オプションのブロックが表示されるため、不要なテストをスキップするためにコメントを付けることができます。

jdupesに関しては質問ハッシュサイズについては、ここで扱うよりもそこで議論を続ける方が生産的です。

Answer

FSlint はこれらすべての比較をサポートしますが、設定は許可されません。常にこれらすべての情報を使用して重複を排除します。

findupこれはそれ自体がシェルスクリプトであり、各比較は別々です。オプションのブロックが表示されるため、不要なテストをスキップするためにコメントを付けることができます。

jdupesに関しては質問ハッシュサイズについては、ここで扱うよりもそこで議論を続ける方が生産的です。

Question 2

find次のようにファイルサイズをコピーできます。

find -type f -printf "%s\n" | sort -n | uniq -d

次に、必要に応じて行います。たとえば、grepです。

find -type f -printf "%s %p\n" \
| sort -n \
| grep -f <(find -type f -printf "^%s \n" | sort -n | uniq -d)

内容に関係なく、同じサイズのアイテムを探します。

257659 ./b
257659 ./bsort
257764 ./a
257764 ./asort

最初の4096バイトのみを一致させるだけでは十分ではなく、誤った重複が生成されます。

ハッシュファイルの開始、終了、中間などの条件を自由に追加します。スクリプトを直接書くことはそれほど難しくありません。

ただし、内容全体を読み取る前に重複している場合とそうでない場合があります。違いはどこでも発生する可能性があるため、どのような経験的方法もすべてを網羅することはできません。だから近道を選ぶと間違いが繰り返されることを当然受け入れる。

冗長性を確認する最速の方法は、ハードリンクにすることです。同じファイルであれば、もはやサイズや内容を確認する必要はありません。

Answer