大容量データファイルから列範囲を抽出/コピー

Question 1

これはケースのようです。cut以下より良いでしょうawk：

cut -d , -f1-20 Precipitation.csv > aaa1
cut -d , -f21-40 Precipitation.csv > aaa2
cut -d , -f41-100 Precipitation.csv > aaa3

-d ,区切り文字（カンマ、入力をCSVと呼びますが変更できます）を指定します。含めて、-f N-M出力に表示するフィールドを選択します。フィールドにカンマが含まれていると破損する可能性があります。この場合、実際のCSVパーサーが必要になるかもしれませんが、実際に不可能な場合は何かを一緒に投げることができます。NM

出力は入力と同じ区切り文字を使用します。 GNUのcutサポート--output-delimiter=STRING別の区切り文字を設定するオプションがありますが、他の人はそうしないようです。 FreeBSDにはcut以下が含まれます-wスペースで分割オプションがawkデフォルト値に近い。これらの動作の1つを他の場所で実装するには、区切り文字の前/後を変換するのがおそらく最善の選択です。

Answer

これはケースのようです。cut以下より良いでしょうawk：

cut -d , -f1-20 Precipitation.csv > aaa1
cut -d , -f21-40 Precipitation.csv > aaa2
cut -d , -f41-100 Precipitation.csv > aaa3

-d ,区切り文字（カンマ、入力をCSVと呼びますが変更できます）を指定します。含めて、-f N-M出力に表示するフィールドを選択します。フィールドにカンマが含まれていると破損する可能性があります。この場合、実際のCSVパーサーが必要になるかもしれませんが、実際に不可能な場合は何かを一緒に投げることができます。NM

出力は入力と同じ区切り文字を使用します。 GNUのcutサポート--output-delimiter=STRING別の区切り文字を設定するオプションがありますが、他の人はそうしないようです。 FreeBSDにはcut以下が含まれます-wスペースで分割オプションがawkデフォルト値に近い。これらの動作の1つを他の場所で実装するには、区切り文字の前/後を変換するのがおそらく最善の選択です。

Question 2

フォローアップマイケル・ホーマーの答え:

kshzshプロセス置換（、、、）をサポートするシェルを使用してファイルを複数回読み取るのを防ぐには、次の手順を実行しますbash。

 tee < Precipitation.csv >(cut -d, -f1-20 > aaa1) >(cut -d, -f21-40 > aaa2) | 
   cut -d, -f41- > aaa3

Answer

フォローアップマイケル・ホーマーの答え:

kshzshプロセス置換（、、、）をサポートするシェルを使用してファイルを複数回読み取るのを防ぐには、次の手順を実行しますbash。

 tee < Precipitation.csv >(cut -d, -f1-20 > aaa1) >(cut -d, -f21-40 > aaa2) | 
   cut -d, -f41- > aaa3

Question 3

そしてperl：

perl -F',' -anle 'print join ",", @F[0..19]' Precipitation.csv > aaa1
perl -F',' -anle 'print join ",", @F[20..39]' Precipitation.csv > aaa2
perl -F',' -anle 'print join ",", @F[40..99]' Precipitation.csv > aaa3

Answer

そしてperl：

perl -F',' -anle 'print join ",", @F[0..19]' Precipitation.csv > aaa1
perl -F',' -anle 'print join ",", @F[20..39]' Precipitation.csv > aaa2
perl -F',' -anle 'print join ",", @F[40..99]' Precipitation.csv > aaa3

Question 4

入力ファイルを一度だけ読み取るので、より良いパフォーマンスが得られます。

awk '{out1=$1; for(i=2; i<=20; i++) {out1 = (out1 FS $i)}
  out2=$21; for(i=22; i<=40; i++) {out2=(out2 FS $i)}
  out3=$41; for(i=42; i<=100; i++) {out3=(out3 FS $i)}
  print out1 > "aaaaa1"; print out2 > "aaaaa2"; print out3 > "aaaaa3"}' Precipitation.csv

または、次のコマンドですべてのフィールド番号を入力できます。「...」をすべての必須フィールド番号に置き換えます。

awk '{print $1,$2,$3,...$19,$20 > "aaaaa1";
  print $21,$22,$23,...$39,$40 > "aaaaa2";
  print $41,$42,$43,...$99,$100 > "aaaaa3"}' Precipitation.csv

Answer

入力ファイルを一度だけ読み取るので、より良いパフォーマンスが得られます。

awk '{out1=$1; for(i=2; i<=20; i++) {out1 = (out1 FS $i)}
  out2=$21; for(i=22; i<=40; i++) {out2=(out2 FS $i)}
  out3=$41; for(i=42; i<=100; i++) {out3=(out3 FS $i)}
  print out1 > "aaaaa1"; print out2 > "aaaaa2"; print out3 > "aaaaa3"}' Precipitation.csv

または、次のコマンドですべてのフィールド番号を入力できます。「...」をすべての必須フィールド番号に置き換えます。

awk '{print $1,$2,$3,...$19,$20 > "aaaaa1";
  print $21,$22,$23,...$39,$40 > "aaaaa2";
  print $41,$42,$43,...$99,$100 > "aaaaa3"}' Precipitation.csv

大容量データファイルから列範囲を抽出/コピー

答え1

答え2

答え3

答え4

関連情報