awk は、あるファイルからヘッダーを読み取り、分割して別のファイルで使用します。

Question 1

実際には答えではありませんが、大きすぎて書式が必要なのでコメントできないので...

1.6Mは多くの行数ではありません。おっしゃるとおり、1時間あたり100万行が表示されます。大規模に遅い場合は、1分あたり100万行がより合理的です。たとえば、次のスクリプトを実行して、1行に300列の1,600,000行のファイルを作成しました。

$ awk -v n=1600000 -v c=300 -v OFS='\t' 'BEGIN{for (j=1;j<=c;j++) printf "col%s%s",j,(j<c?OFS:ORS); for (i=1;i<=n;i++) for (j=1;j<=c;j++) printf "%s%s",j,(j<c?OFS:ORS)}' > file

次に、定期的にスクリプトを実行して問題のファイルを変換します。

$ time awk 'BEGIN{FS=OFS="\t"} NR==1{split($0, headers); print; next} {for (i=166;i<=NF;i++) $i=headers[i] "|" $i } 1' file > out

real    1m22.569s
user    1m17.971s
sys     0m4.359s

したがって、実行時間は1.5時間ではなく約82秒です。

Answer

実際には答えではありませんが、大きすぎて書式が必要なのでコメントできないので...

1.6Mは多くの行数ではありません。おっしゃるとおり、1時間あたり100万行が表示されます。大規模に遅い場合は、1分あたり100万行がより合理的です。たとえば、次のスクリプトを実行して、1行に300列の1,600,000行のファイルを作成しました。

$ awk -v n=1600000 -v c=300 -v OFS='\t' 'BEGIN{for (j=1;j<=c;j++) printf "col%s%s",j,(j<c?OFS:ORS); for (i=1;i<=n;i++) for (j=1;j<=c;j++) printf "%s%s",j,(j<c?OFS:ORS)}' > file

次に、定期的にスクリプトを実行して問題のファイルを変換します。

$ time awk 'BEGIN{FS=OFS="\t"} NR==1{split($0, headers); print; next} {for (i=166;i<=NF;i++) $i=headers[i] "|" $i } 1' file > out

real    1m22.569s
user    1m17.971s
sys     0m4.359s

したがって、実行時間は1.5時間ではなく約82秒です。

Question 2

GNU Parallelの場合:

#!/bin/bash

do_block() {
    awk 'BEGIN{FS=OFS="\t"}
     NR==1{split($0, headers); next}
     {for (i=166;i<=NF;i++) $i=headers[i] "|" $i } 1'
}
export -f do_block

# Non-parallel version
cat file | head -n1 > out1
time cat file | do_block >> out1

# Parallel version
cat file | head -n1 > out2
time parallel -k --pipepart --block -30 -a file --header : do_block >> out2

私の4コアCPUでは、並列バージョンは約3倍高速です。

Answer

GNU Parallelの場合:

#!/bin/bash

do_block() {
    awk 'BEGIN{FS=OFS="\t"}
     NR==1{split($0, headers); next}
     {for (i=166;i<=NF;i++) $i=headers[i] "|" $i } 1'
}
export -f do_block

# Non-parallel version
cat file | head -n1 > out1
time cat file | do_block >> out1

# Parallel version
cat file | head -n1 > out2
time parallel -k --pipepart --block -30 -a file --header : do_block >> out2

私の4コアCPUでは、並列バージョンは約3倍高速です。

awk は、あるファイルからヘッダーを読み取り、分割して別のファイルで使用します。

答え1

答え2

関連情報