複雑なファイル構造からデータを抽出する

Question 1

使用awk:

awk '
  BEGIN {
    fields[1]
    fields[3]
    fields[4]
    fields[5]
    fields[6]
    fields[7]
    last_field=8
  }
  ( NR%21 in fields ) { printf($0",") }
  NR%21==last_field' in_file.txt

または、より良い方法は次のとおりです。

awk '
  NR%21 ~ /^(1|3|4|5|6|7)$/ { printf($0",") }
  NR%21==8' in_file.txt

GNUには、sed与えられた行の後のn行目に一致する素晴らしい拡張機能があります。これはここで便利です。 OSXでは動作しませんが、楽しみのために次のことを行います。

sed -n '
  1~21 { h }
  3~21,7~21 { H }
  8~21 { H; g; s/\n/,/gp }' in_file

Answer

使用awk:

awk '
  BEGIN {
    fields[1]
    fields[3]
    fields[4]
    fields[5]
    fields[6]
    fields[7]
    last_field=8
  }
  ( NR%21 in fields ) { printf($0",") }
  NR%21==last_field' in_file.txt

または、より良い方法は次のとおりです。

awk '
  NR%21 ~ /^(1|3|4|5|6|7)$/ { printf($0",") }
  NR%21==8' in_file.txt

GNUには、sed与えられた行の後のn行目に一致する素晴らしい拡張機能があります。これはここで便利です。 OSXでは動作しませんが、楽しみのために次のことを行います。

sed -n '
  1~21 { h }
  3~21,7~21 { H }
  8~21 { H; g; s/\n/,/gp }' in_file

Question 2

1つの方法は次のとおりです。

$ perl -000ne '@f=split(/\n/); print join(",",@f[0,2..7]) , "\n"' file.txt  
1500,18,02,09,47,17,45
1501,27,54,28,50,22,03

説明する：

-000perl：フィールド区切り文字を連続した改行に設定する短絡モードを有効にします\n\n。これは、各レコードを行として扱うことを意味します。
@f=split(/\n/);：現在の行（レコード）を改行文字で分割して配列として保存します@f。配列にはレコードのすべてのフィールドが含まれます。これは、配列フラグメントに@f[0,2..8]フィールド0と2〜8が含まれることを意味します。
print join ",",@f[0,2..8] , "\n"'：配列フラグメントをコンマで連結し、結果の文字列を印刷してから改行文字を印刷します。

Answer

1つの方法は次のとおりです。

$ perl -000ne '@f=split(/\n/); print join(",",@f[0,2..7]) , "\n"' file.txt  
1500,18,02,09,47,17,45
1501,27,54,28,50,22,03

説明する：

-000perl：フィールド区切り文字を連続した改行に設定する短絡モードを有効にします\n\n。これは、各レコードを行として扱うことを意味します。
@f=split(/\n/);：現在の行（レコード）を改行文字で分割して配列として保存します@f。配列にはレコードのすべてのフィールドが含まれます。これは、配列フラグメントに@f[0,2..8]フィールド0と2〜8が含まれることを意味します。
print join ",",@f[0,2..8] , "\n"'：配列フラグメントをコンマで連結し、結果の文字列を印刷してから改行文字を印刷します。

Question 3

データに常に特定の数の欠落フィールドがある場合（つまりレコード間に2つ以上のハードリターンがある場合）、単に次のことができます。

$ awk -v RS="\\n{2,}" -F"\\n" -v OFS="," '{print $1, $3, $4, $5, $6, $7, $8}' file.txt
1500,18,02,09,47,17,45
1501,27,54,28,50,22,03

Answer

データに常に特定の数の欠落フィールドがある場合（つまりレコード間に2つ以上のハードリターンがある場合）、単に次のことができます。

$ awk -v RS="\\n{2,}" -F"\\n" -v OFS="," '{print $1, $3, $4, $5, $6, $7, $8}' file.txt
1500,18,02,09,47,17,45
1501,27,54,28,50,22,03

複雑なファイル構造からデータを抽出する

答え1

答え2

説明する：

答え3

関連情報