名前でファイルを削除するのは痛いほど遅いですが、とても速いのはなぜですか？

Question 1

rm -r は再帰のために遅くなると予想されます。ディレクトリ構造の深さ優先探索を実行する必要があります。

それでは、1000万個のファイルをどのように生成しますか？どのような順序で繰り返されるスクリプトを使用していますか？ 1.txt,2.txt,3.txt... もしそうなら、これらのファイルは同じ順序でHDDの連続したブロックに割り当てられます。したがって、同じ順序で削除する方が高速です。

"ls -f"は-aUを有効にします。これは再帰的なディレクトリの順序でリストされます。

Answer

rm -r は再帰のために遅くなると予想されます。ディレクトリ構造の深さ優先探索を実行する必要があります。

それでは、1000万個のファイルをどのように生成しますか？どのような順序で繰り返されるスクリプトを使用していますか？ 1.txt,2.txt,3.txt... もしそうなら、これらのファイルは同じ順序でHDDの連続したブロックに割り当てられます。したがって、同じ順序で削除する方が高速です。

"ls -f"は-aUを有効にします。これは再帰的なディレクトリの順序でリストされます。

Question 2

ファイル構造を最適化する必要があります。だから代わりに

for i in $(seq 1 1000); do touch file.$i; done

次のように、よりスマートに実行します（bash仮定）。

function bucklocate() 
{ 
    hash=$(echo -n "$1"|md5sum|cut -f1); 
    echo -n "${hash:1:1}/${hash:7:1}/${hash:9:2}/$1"; 
}

hexdig="{0,1,2,3,4,5,6,7,8,9,a,b,c,d,e,f}"
eval mkdir -p $hexdig/$hexdig/$hexdig$hexdig


for i in $(seq 1 1000); do touch $(bucklocate file.$i); done

これで、この例ではmd5sum [1]を使用しているため、かなり遅くなります。次のようなものを使用すると、特定のファイル名を必要とせず、重複について心配する必要がない限り、応答性が向上します。反復可能には特定の名前が必要ですか？ハを願っています:)

mkdir -pv {0,1,2,3,4,5,6}/{0,1,2,3,4,5,6,7,8,9,10,12}
for  a in $(seq 1 100); do i=$RANDOM; echo touch "$(($i%7))/$(($i%13))/file.$i"; done

もちろん、これはすべてハッシュテーブルの概念を急いで借りたものです。

Answer

ファイル構造を最適化する必要があります。だから代わりに

for i in $(seq 1 1000); do touch file.$i; done

次のように、よりスマートに実行します（bash仮定）。

function bucklocate() 
{ 
    hash=$(echo -n "$1"|md5sum|cut -f1); 
    echo -n "${hash:1:1}/${hash:7:1}/${hash:9:2}/$1"; 
}

hexdig="{0,1,2,3,4,5,6,7,8,9,a,b,c,d,e,f}"
eval mkdir -p $hexdig/$hexdig/$hexdig$hexdig


for i in $(seq 1 1000); do touch $(bucklocate file.$i); done

これで、この例ではmd5sum [1]を使用しているため、かなり遅くなります。次のようなものを使用すると、特定のファイル名を必要とせず、重複について心配する必要がない限り、応答性が向上します。反復可能には特定の名前が必要ですか？ハを願っています:)

mkdir -pv {0,1,2,3,4,5,6}/{0,1,2,3,4,5,6,7,8,9,10,12}
for  a in $(seq 1 100); do i=$RANDOM; echo touch "$(($i%7))/$(($i%13))/file.$i"; done

もちろん、これはすべてハッシュテーブルの概念を急いで借りたものです。

名前でファイルを削除するのは痛いほど遅いですが、とても速いのはなぜですか？

答え1

答え2

関連情報