繰り返し自由形式の文字列を「dd」と同じくらい早くファイルに書き込むにはどうすればよいですか？

Question 1

$ time perl -e \
    '$count=1024*1024; while ($count>0) { print "x" x 384; $count--; }' > out
real    0m1.284s
user    0m0.316s
sys 0m0.961s
$ ls -lh out
-rw-r--r-- 1 me group 384M Apr 16 19:47 out

"x" x 384（384を生成する文字列）xを必要なものに置き換えます。

各ループでより大きな文字列を使用し、通常のstdoutバッファリングをバイパスすることで、これをさらに最適化できます。

$ perl -e \
   '$count=384; while ($count>0) {
      syswrite(STDOUT, "x" x (1024*1024),  1024*1024);
      $count--;
    }' > out

この場合、syswriteコールはデフォルトのwriteシステムコールに1Mを渡すので、非常に良いです。（これでユーザーあたり約0.940秒を得ました。）

syncヒント：前の実行のフラッシュが現在の実行のI / Oを妨げないように、各テスト間でこの呼び出しを呼び出す必要があります。

ちなみに今回は次のようになります。

$ time dd if=/dev/zero bs=1024 count=$((1024*384)) of=./out
393216+0 records in
393216+0 records out
402653184 bytes (403 MB) copied, 1.41404 s, 285 MB/s

real    0m1.480s
user    0m0.054s
sys 0m1.410s

Answer

$ time perl -e \
    '$count=1024*1024; while ($count>0) { print "x" x 384; $count--; }' > out
real    0m1.284s
user    0m0.316s
sys 0m0.961s
$ ls -lh out
-rw-r--r-- 1 me group 384M Apr 16 19:47 out

"x" x 384（384を生成する文字列）xを必要なものに置き換えます。

各ループでより大きな文字列を使用し、通常のstdoutバッファリングをバイパスすることで、これをさらに最適化できます。

$ perl -e \
   '$count=384; while ($count>0) {
      syswrite(STDOUT, "x" x (1024*1024),  1024*1024);
      $count--;
    }' > out

この場合、syswriteコールはデフォルトのwriteシステムコールに1Mを渡すので、非常に良いです。（これでユーザーあたり約0.940秒を得ました。）

syncヒント：前の実行のフラッシュが現在の実行のI / Oを妨げないように、各テスト間でこの呼び出しを呼び出す必要があります。

ちなみに今回は次のようになります。

$ time dd if=/dev/zero bs=1024 count=$((1024*384)) of=./out
393216+0 records in
393216+0 records out
402653184 bytes (403 MB) copied, 1.41404 s, 285 MB/s

real    0m1.480s
user    0m0.054s
sys 0m1.410s

Question 2

一般に、シェルは大きなデータブロックを処理するのに遅いことが知られている。ほとんどのスクリプトでは、どのデータビットが小さい可能性があり、どのビットが大きい可能性があるかを事前に知ることができます。

外部プロセスをフォークして実行すると継続的なオーバーヘッドが発生するため、小さなデータを処理するには組み込みシェルを使用することをお勧めします。
専門化されたコンパイルツールは解釈された汎用言語よりも効率的であるため、ビッグデータ処理のために外部の専門ツールに頼ることを好みます。

ddread問題と通話にブロックサイズを使用してください。writestrace（またはOSによってはtruss、Trace...）を使用してこれを観察できます。

$ strace -s9 dd if=/dev/zero of=/dev/null ibs=1024k obs=2048k count=4
✄
read(0, "\0\0\0\0\0\0\0\0\0"..., 1048576) = 1048576
read(0, "\0\0\0\0\0\0\0\0\0"..., 1048576) = 1048576
write(1, "\0\0\0\0\0\0\0\0\0"..., 2097152) = 2097152
read(0, "\0\0\0\0\0\0\0\0\0"..., 1048576) = 1048576
read(0, "\0\0\0\0\0\0\0\0\0"..., 1048576) = 1048576
write(1, "\0\0\0\0\0\0\0\0\0"..., 2097152) = 2097152
✄

他のほとんどのツールは、最大バッファサイズの上限がはるかに低いため、より多くのシステムコールを実行するため、時間がかかります。しかし、これは非現実的なベンチマークであることに注意してください。通常のファイル、パイプ、またはソケットに書き込むと、カーネルはシステム呼び出しごとに数キロバイトを超えるデータを書き込めない可能性があります。

Answer

一般に、シェルは大きなデータブロックを処理するのに遅いことが知られている。ほとんどのスクリプトでは、どのデータビットが小さい可能性があり、どのビットが大きい可能性があるかを事前に知ることができます。

外部プロセスをフォークして実行すると継続的なオーバーヘッドが発生するため、小さなデータを処理するには組み込みシェルを使用することをお勧めします。
専門化されたコンパイルツールは解釈された汎用言語よりも効率的であるため、ビッグデータ処理のために外部の専門ツールに頼ることを好みます。

ddread問題と通話にブロックサイズを使用してください。writestrace（またはOSによってはtruss、Trace...）を使用してこれを観察できます。

$ strace -s9 dd if=/dev/zero of=/dev/null ibs=1024k obs=2048k count=4
✄
read(0, "\0\0\0\0\0\0\0\0\0"..., 1048576) = 1048576
read(0, "\0\0\0\0\0\0\0\0\0"..., 1048576) = 1048576
write(1, "\0\0\0\0\0\0\0\0\0"..., 2097152) = 2097152
read(0, "\0\0\0\0\0\0\0\0\0"..., 1048576) = 1048576
read(0, "\0\0\0\0\0\0\0\0\0"..., 1048576) = 1048576
write(1, "\0\0\0\0\0\0\0\0\0"..., 2097152) = 2097152
✄

他のほとんどのツールは、最大バッファサイズの上限がはるかに低いため、より多くのシステムコールを実行するため、時間がかかります。しかし、これは非現実的なベンチマークであることに注意してください。通常のファイル、パイプ、またはソケットに書き込むと、カーネルはシステム呼び出しごとに数キロバイトを超えるデータを書き込めない可能性があります。

Question 3

これを使用してくださいdd！まず、文字列がファイルの先頭に書き込まれます。次に、次のようにします。

dd if=$FILE of=$FILE bs=$STRING_LENGTH seek=1 count=$REPEAT_TIMES

注：$ STRING_LENGTHが小さい場合は、次のことができます。

dd if=$FILE of=$FILE bs=$STRING_LENGTH seek=1 count=$((1024/$REPEAT_TIMES))
dd if=$FILE of=$FILE bs=1024 seek=1 count=$(($REPEAT_TIMES/1024))

（この例は、STRING_LENGTHが2の累乗でREPEAT_TIMESが1024の倍数の場合にのみ機能しますが、理解できます。）

ファイルを上書きするために使用するには（消去など）、次を使用します。conv=notrunc

Answer