私はこの質問に遭遇し、選択した答えから多くを学びました。dd を使用して任意のデータを生成し、「部分読み取り警告」が発生します。今警告後のデータは本当にランダムですか?
残念ながら、提案されたソリューションhead -c
は移植性がありません。
dd
これが回答だと主張する方は、リンクされた回答を注意深くお読みください。ここでは、なぜdd
答えになることができないのかを詳しく説明します。また、次の点に注意してください。
$ dd bs=1000000 count=10 if=/dev/random of=random
dd: warning: partial read (89 bytes); suggest iflag=fullblock
0+10 records in
0+10 records out
143 bytes (143 B) copied, 99.3918 s, 0.0 kB/s
$ ls -l random ; du -kP random
-rw-rw-r-- 1 me me 143 Apr 22 19:19 random
4 random
$ pwd
/tmp
答え1
残念ながら、バイナリファイルの内容を操作することは、dd
POSIXで使用できるほとんど唯一のツールです。テキスト処理ツール(cat
、、、、sed
...)の最新の実装はawk
バイナリファイルで機能できますが、これはPOSIXの要件ではありません。一部の以前の実装では、NULL バイト、改行で終了していない入力、または無効なバイトが原因で失敗します。環境文字ブロックエンコーディングのシーケンスです。
安全な使用は可能ですが難しいですdd
。私が人々を遠ざけるように多くの努力をする理由は、dd
それが役に立たず安全でないときにそれを促進するための多くのアドバイスがあるからです。
問題はdd
ブロックの概念です。呼び出しを仮定します。read
チャンクを返します。read
少量のデータが返されると、部分的なチャンクが得られ、これは次のものをskip
捨てますcount
。次の例は、dd
データを比較的遅く転送するパイプからデータを読み取る問題を示しています。
yes hello | while read line; do echo $line; done | dd ibs=4 count=1000 | wc -c
湿地標準Linux(Debian jessie、Linuxカーネル3.16、dd
GNU coreutils 8.23)で私が得たバイト数は、約3000から約4000まで非常に多様です。入力ブロックサイズを除数6に変更すると、無駄に予想されるように、出力は常に4000バイトです。入力はdd
6バイトのバーストで到着し、ブロックが複数のバーストにまたがらない限りdd
大丈夫です。完全なブロック。
これは解決策を提案します。入力ブロックサイズ1を使用。入力がどのように生成されても、dd
入力ブロックサイズが1の場合、部分ブロックを読み取ることはできません。 (これは完全には明確ではありません。dd
シグナルによって中断されるとサイズ0のブロックを読み取ることができます。ただし、シグナルによって中断された場合はread
システムコールは-1を返します。read
ファイルが開いている場合にのみ0を返すことができます。モードでは、ブロックモードでのみファイルの最後に0を返すとは思わないことをお勧めしますread
。read
dd ibs=1 count="$number_of_bytes"
このアプローチの問題は、速度が遅くなる可能性があることです(ただし、驚くほど遅くはありません。head -c
速いベンチマークよりも約4倍遅いだけです)。
POSIXは、バイナリデータを読み取り、それをテキスト形式に変換するための追加ツールを定義します。uuencode
(記録uuencode形式またはBase64に出力)、od
(8進数または16進数のダンプを出力します)。どちらも現在の作業には適していません。uuencode
この操作は次にキャンセルできます。uudecode
しかし、出力ライン当たりのバイト数が標準化されていないため、出力のバイト数を計算するのは厄介です。で明確に定義された出力を取得することは可能ですod
が、残念ながらPOSIXツールは反対方向には実行できません(この操作は実行できますが、shまたはawkの遅いループを介してのみ実行できるため、ここでは目的を達成できません)。
答え2
最新バージョンのGNU実装にはiflagdd
がありますcount_bytes
。たとえば、
cat /dev/zero | dd count=1234 iflag=count_bytes | wc -c
次のように出力されます
2+1 records in
2+1 records out
1234 bytes (1.2 kB, 1.2 KiB) copied, 0.000161684 s, 7.6 MB/s
1234
答え3
使用目的の1つdd
は、ユーザーが使用するブロックサイズを選択できることです。ブロックサイズが大きすぎて失敗した場合、より小さいdd
ブロックサイズを試すのはIMOの責任です。テラバイト単位のブロックを要求できますが、dd
それでも得られるという意味ではありません。
正確なバイト数が必要な場合は非常に遅いですが動作します。
dd bs=1 count=1000000
ブロックサイズでも1
部分読み出しが発生したら…