与えられた列の内容が変更されるたびにファイルを分割する

Question 1

使用awk

$ awk -F"|" '{print > $2}' input_file
$ head gene_cluster*
==> gene_cluster:GC_00001105 <==
>00000000|gene_cluster:GC_00001105|genome_name:r7534_20160316|gene_callers_id:24
>00000001|gene_cluster:GC_00001105|genome_name:r7537_20160321|gene_callers_id:78
>00000002|gene_cluster:GC_00001105|genome_name:r7541_20160426|gene_callers_id:774
>00000003|gene_cluster:GC_00001105|genome_name:r7544_20160502|gene_callers_id:1034
>00000004|gene_cluster:GC_00001105|genome_name:r7547_20160512|gene_callers_id:330
>00000005|gene_cluster:GC_00001105|genome_name:r7550_20160517|gene_callers_id:2094

==> gene_cluster:GC_00001290 <==
>00000006|gene_cluster:GC_00001290|genome_name:r7534_20160316|gene_callers_id:76
>00000007|gene_cluster:GC_00001290|genome_name:r7537_20160321|gene_callers_id:358
>00000008|gene_cluster:GC_00001290|genome_name:r7541_20160426|gene_callers_id:1601
>00000009|gene_cluster:GC_00001290|genome_name:r7544_20160502|gene_callers_id:2134

Answer

使用awk

$ awk -F"|" '{print > $2}' input_file
$ head gene_cluster*
==> gene_cluster:GC_00001105 <==
>00000000|gene_cluster:GC_00001105|genome_name:r7534_20160316|gene_callers_id:24
>00000001|gene_cluster:GC_00001105|genome_name:r7537_20160321|gene_callers_id:78
>00000002|gene_cluster:GC_00001105|genome_name:r7541_20160426|gene_callers_id:774
>00000003|gene_cluster:GC_00001105|genome_name:r7544_20160502|gene_callers_id:1034
>00000004|gene_cluster:GC_00001105|genome_name:r7547_20160512|gene_callers_id:330
>00000005|gene_cluster:GC_00001105|genome_name:r7550_20160517|gene_callers_id:2094

==> gene_cluster:GC_00001290 <==
>00000006|gene_cluster:GC_00001290|genome_name:r7534_20160316|gene_callers_id:76
>00000007|gene_cluster:GC_00001290|genome_name:r7537_20160321|gene_callers_id:358
>00000008|gene_cluster:GC_00001290|genome_name:r7541_20160426|gene_callers_id:1601
>00000009|gene_cluster:GC_00001290|genome_name:r7544_20160502|gene_callers_id:2134

Question 2

awk -F'|' '$2 != out{close(out); out=$2} {print > out}'

各出力ファイルを閉じないと、同時に開いたファイルのしきい値を超えると、awkのバージョンによっては、awkスクリプトが失敗したり、大幅に遅くなります。例をご覧ください。SSL証明書を分割するときにエラーが発生しました。出力ファイルが多すぎます。 10またはawk-cannot-open-04477c9a875b80-csv-for-output-too-many-open-files

Answer

awk -F'|' '$2 != out{close(out); out=$2} {print > out}'

各出力ファイルを閉じないと、同時に開いたファイルのしきい値を超えると、awkのバージョンによっては、awkスクリプトが失敗したり、大幅に遅くなります。例をご覧ください。SSL証明書を分割するときにエラーが発生しました。出力ファイルが多すぎます。 10またはawk-cannot-open-04477c9a875b80-csv-for-output-too-many-open-files

与えられた列の内容が変更されるたびにファイルを分割する

答え1

答え2

関連情報