テキスト列の値に基づいて大容量ファイルを複数の小さなファイルに分割する方法は？

Question 1

そしてawk：

awk -F, '$2 != ref { i++; ref = $2 } { print $0 >"output" i }' input

2番目の列inputに基づいてファイルに分割されますoutput1。output2

出力ファイルごとの行数を制限するには、次のようにします。

awk -F, '$2 != ref { i++; ref = $2; lines = 0 } lines >= 1000 { i++; lines = 0 } { print $0 >"output" i; lines++ }' input

2番目の列の制約を考慮して、最大1000行を含む出力ファイルが生成されます。

以下は、指定された制限（この場合は1000行、50000000行を使用できます）に達した後に2番目の列の次の変更時に分割される別の変形です。

awk -F, 'BEGIN { change = 1 } change && $2 != ref { i++; ref = $2; change = 0; lines = 0 } lines >= 1000 { change = 1 } { print $0 >"output" i; lines++; ref = $2 }' input

Answer

そしてawk：

awk -F, '$2 != ref { i++; ref = $2 } { print $0 >"output" i }' input