Bashスクリプトと大容量ファイル（バグ）：リダイレクトに組み込まれた読み取り機能を使用して入力すると、予期しない結果が発生する

Question 1

Bashで何らかのバグを見つけました。これは既知のバグであり、修正されました。

プログラムは、ファイルのオフセットを有限サイズの整数型変数として表します。以前はintほとんどすべての人が使用していましたが、intその種類が符号ビットを含めて32ビットに制限されていたため、-2147483648から2147483647までの値を格納できました。今は違うさまざまなアイテムの名前を入力してください。、off_tファイルのオフセットを含みます。

デフォルトでは、off_t32ビットプラットフォームでは32ビットタイプ（最大許容2GB）、64ビットプラットフォームでは64ビットタイプ（最大許容8EB）です。ただし、型をoff_t64ビット幅に切り替えてプログラムに適切な関数実装を呼び出すようにするLARGEFILEオプションを使用してプログラムをコンパイルするのが一般的です。lseek。

32ビットプラットフォームでbashを実行していて、bashバイナリが大容量ファイルサポートでコンパイルされていないようです。通常のファイルから1行を読み取ると、bashは内部バッファを使用して文字を一括して読み取ってパフォーマンスを向上させます。 (詳細はソースコード参照)builtins/read.def）。行が完了すると、bash呼び出しはlseek他のプログラムがファイルの場所に興味を持っている場合に備えて、ファイルオフセットを行末に巻き戻します。関数lseekで呼び出しが発生します。zsyncfclib/sh/zread.c。

ソースコードを詳しく読むことはできませんでしたが、絶対オフセットが負数のときに切り替え点で何かスムーズに起こらないのではないかと推測しています。したがって、bashが2 GBの表示を通過した後にバッファを再充填すると、最終的に誤ったオフセットが読み取られます。

私の結論が間違っていて、あなたのbashが実際に64ビットプラットフォームで実行されているか、大容量ファイルサポートでコンパイルされている場合、これは間違いなくバグです。この事実をディストリビューションに報告するか、上流。

とにかく、シェルはこれらの大容量ファイルを処理するのに適したツールではありません。非常に遅いでしょう。可能であれば sed を使用し、そうでない場合は awk を使用します。

Answer

Bashで何らかのバグを見つけました。これは既知のバグであり、修正されました。

プログラムは、ファイルのオフセットを有限サイズの整数型変数として表します。以前はintほとんどすべての人が使用していましたが、intその種類が符号ビットを含めて32ビットに制限されていたため、-2147483648から2147483647までの値を格納できました。今は違うさまざまなアイテムの名前を入力してください。、off_tファイルのオフセットを含みます。

デフォルトでは、off_t32ビットプラットフォームでは32ビットタイプ（最大許容2GB）、64ビットプラットフォームでは64ビットタイプ（最大許容8EB）です。ただし、型をoff_t64ビット幅に切り替えてプログラムに適切な関数実装を呼び出すようにするLARGEFILEオプションを使用してプログラムをコンパイルするのが一般的です。lseek。

32ビットプラットフォームでbashを実行していて、bashバイナリが大容量ファイルサポートでコンパイルされていないようです。通常のファイルから1行を読み取ると、bashは内部バッファを使用して文字を一括して読み取ってパフォーマンスを向上させます。 (詳細はソースコード参照)builtins/read.def）。行が完了すると、bash呼び出しはlseek他のプログラムがファイルの場所に興味を持っている場合に備えて、ファイルオフセットを行末に巻き戻します。関数lseekで呼び出しが発生します。zsyncfclib/sh/zread.c。

ソースコードを詳しく読むことはできませんでしたが、絶対オフセットが負数のときに切り替え点で何かスムーズに起こらないのではないかと推測しています。したがって、bashが2 GBの表示を通過した後にバッファを再充填すると、最終的に誤ったオフセットが読み取られます。

私の結論が間違っていて、あなたのbashが実際に64ビットプラットフォームで実行されているか、大容量ファイルサポートでコンパイルされている場合、これは間違いなくバグです。この事実をディストリビューションに報告するか、上流。

とにかく、シェルはこれらの大容量ファイルを処理するのに適したツールではありません。非常に遅いでしょう。可能であれば sed を使用し、そうでない場合は awk を使用します。

Question 2

何が問題なのかわかりませんが、本当に複雑です。入力ラインが次の場合：

YYYY-MM-DD some text ...

まあ、その理由はまったくありません：

new_file=${line:0:4}-${line:5:2}-${line:8:2}_file.log

私はすでにファイルに見えるのと同じように見える結果を得るために多くの部分文字列操作を実行しています。これはどうですか？

while read line; do
  new_file="${line:0:10}_file.log"
  echo "$line" >> $new_file
done

これは行の最初の10文字を取得します。完全に放棄し、bash次のものを使用することもできますawk。

awk '{print > ($1 "_file.log")}' < file.log

$1これは日付（各行にスペースで区切られた最初の列）を取得し、それを使用してファイル名を生成します。

ファイルに偽のログ行がある可能性があります。つまり、問題はスクリプトではなく入力にある可能性があります。awk次のように誤った行を表示するようにスクリプトを拡張できます。

awk '
$1 ~ /[0-9][0-9][0-9][0-9]-[0-9][0-9]-[0-9][0-9]/ {
    print > ($1 "_file.log")
    next
}

{
    print "INVALID:", $0
}
'

これはYYYY-MM-DD、ログファイルと一致する行を作成し、標準出力でタイムスタンプで始まらない行を示します。

Answer