ソートする必要があるファイルが多すぎます。名前は同じですが、内容が異なるファイルが多く、内容は同じですが、ファイル名が異なります。
ファイルのチェックサム生成を使用しようとしているときにmd5sum
知っておくべきことがあります。 2つの異なるファイル(異なるコンテンツなど)が同じチェックサムを生成できますか?
もしそうなら、そのようなことが起こる可能性はどのくらいですか?
2つの異なるチェックサムプログラムを使用して2つのチェックサムを生成することは可能ですか? 2つの異なるファイルが両方のチェックサムプログラムに対して同じチェックサムを生成できると仮定し、両方のプログラムが同時に発生しませんか? ?
答え1
内容は同じですが、ファイル名が異なる2つのファイル:(ファイル1そしてファイル2):
cat file1
this is a simple file
cat file2
this is a simple file
md5sum file1
7de45bf879db49de7e2eacea23e6c165 file1
md5sum file2
7de45bf879db49de7e2eacea23e6c165 file2
内容は異なりますが、ファイル名は同じ2つです。(ファイル1そしてファイル1)
cat file1
this is a simple file
cat file1
this is a simple file with extra contents
md5sum file1 #first file1
7de45bf879db49de7e2eacea23e6c165 file1
md5sum file1 #second file1
c7c8f3fd9ddd7a926c31416a69063e4e file1
~からウィキペディア入り口、
しかし、実際には、同じハッシュを持つように特別に作成されない限り、同じではない2つのファイルが同じMD5ハッシュを持つ可能性はほとんどありません。
しかし、MD5アルゴリズムには独自の欠陥があります。
ただし、MD5の競合が発生しやすく、ファイルを作成した人が潜在的に同じチェックサムを使用して2番目のファイルを作成できるため、この技術は悪意のある改ざんから保護することはできません。また、場合によってはチェックサムを信頼できません(たとえば、ダウンロードしたファイルと同じチャンネルを介して取得した場合など)。この場合、MD5はエラーチェックのみを提供できます。破損または誤った完全なダウンロードを識別します。大きなファイルをダウンロードしています。
衝突が起こりにくいので、sha1を使用してチェックサムを計算することをお勧めします。砂1演算。ご覧のとおり、sha1チェックサムを生成するのは非常に簡単です。ここ。