時には、複数行にまたがるレコードに60GBのフラットファイルを分割します。

Question 1

sed分割線接続のみ

sed ':a
/".*"$/b
N;s/\n/ /;ba' input >> output

私のシステムは10MBファイルを処理するのに6秒かかります。 60GBの場合は10時間になります。

bbe少し速い

bbe -b '/"/:/"/' -o output -e 'y/\n/ /' input

しかし、まだ4秒かかります。

残念ながら、これらのスクリプト言語は非常に大きなファイルで正しく機能するツールではありません。小さなプログラムを書いてみてはいかがでしょうかC？

Answer

sed分割線接続のみ

sed ':a
/".*"$/b
N;s/\n/ /;ba' input >> output

私のシステムは10MBファイルを処理するのに6秒かかります。 60GBの場合は10時間になります。

bbe少し速い

bbe -b '/"/:/"/' -o output -e 'y/\n/ /' input

しかし、まだ4秒かかります。

残念ながら、これらのスクリプト言語は非常に大きなファイルで正しく機能するツールではありません。小さなプログラムを書いてみてはいかがでしょうかC？

Question 2

使用例gawk:

awk 'BEGIN {RS = "\"\n"} {++n; print $0"\""> n".txt"}' input

inputこれは、任意の順序でファイルを分割し、改行"（\n）を使用することを意味します。これは、引用符の直後にはない改行文字を無視するため、複数行のレコードが保存されます。この例では、出力はテキストファイルに書き込まれますが、その> n".txt"セクションを削除するとレコードをパイプに送信できます。

Answer

使用例gawk:

awk 'BEGIN {RS = "\"\n"} {++n; print $0"\""> n".txt"}' input

inputこれは、任意の順序でファイルを分割し、改行"（\n）を使用することを意味します。これは、引用符の直後にはない改行文字を無視するため、複数行のレコードが保存されます。この例では、出力はテキストファイルに書き込まれますが、その> n".txt"セクションを削除するとレコードをパイプに送信できます。

Question 3

Perlループを使用してファイルを読み取るため、for速度が遅くなります。ループはファイル全体を一度にメモリにロードするwhileため、ループを使用する必要があります。forこれが$countを印刷するのに時間がかかる理由です。

perl -ne '
   print,next if /^".*"$/m or /"$/m;
   chomp, $_ .= <>, redo unless eof;
' gene.data

Answer

Perlループを使用してファイルを読み取るため、for速度が遅くなります。ループはファイル全体を一度にメモリにロードするwhileため、ループを使用する必要があります。forこれが$countを印刷するのに時間がかかる理由です。

perl -ne '
   print,next if /^".*"$/m or /"$/m;
   chomp, $_ .= <>, redo unless eof;
' gene.data

時には、複数行にまたがるレコードに60GBのフラットファイルを分割します。

答え1

答え2

答え3

関連情報