ファイルから行番号とパターンを同時に抽出する

Question 1

awkクリーンアップする前に、元の入力ファイルで次を使用します。

awk '/account number [[:digit:]]+/ { match($0, "account number ([[:digit:]]+)", a); print NR ";" substr($0, a[1, "start"], a[1, "length"]); }' input

その後、口座番号が抽出され、行の先頭に行番号が印刷されます。

1;2345356432
3;8623525534

クリーンアップされたファイルから前処理された数値を抽出するには、次の手順を実行します。

awk '/account number [[:digit:]]+/ { match($0, "account number ([[:digit:]]+)", a); print $1 ";" substr($0, a[1, "start"], a[1, "length"]); }' input

少し分析してみてください。

/account number [[:digit:]]+/「口座番号」の後に数字が一致する行のみを処理していることを確認してください。
match($0, "account number ([[:digit:]]+)", a)パターンを見つけて、一致するグループの位置と長さ（、数）を([[:digit:]]+)配列に保存しますa。
print NR ";" substr($0, a[1, "start"], a[1, "length"])レコード番号の印刷（つまり行番号、複数のFNRファイルを処理する場合に使用）、最初のグループに対応する部分;文字列：開始インデックス、長さ（パディングで埋められる）をa[1, "start"]提供します。a[1, "length"]match

これらすべては、1行につき最大1つのアカウントがあると想定しています。

2番目のバリエーションは$1代わりに印刷しますNR。つまりファイルの最初のフィールドは前処理された行番号です。

Answer

awkクリーンアップする前に、元の入力ファイルで次を使用します。

awk '/account number [[:digit:]]+/ { match($0, "account number ([[:digit:]]+)", a); print NR ";" substr($0, a[1, "start"], a[1, "length"]); }' input

その後、口座番号が抽出され、行の先頭に行番号が印刷されます。

1;2345356432
3;8623525534

クリーンアップされたファイルから前処理された数値を抽出するには、次の手順を実行します。

awk '/account number [[:digit:]]+/ { match($0, "account number ([[:digit:]]+)", a); print $1 ";" substr($0, a[1, "start"], a[1, "length"]); }' input

少し分析してみてください。

/account number [[:digit:]]+/「口座番号」の後に数字が一致する行のみを処理していることを確認してください。
match($0, "account number ([[:digit:]]+)", a)パターンを見つけて、一致するグループの位置と長さ（、数）を([[:digit:]]+)配列に保存しますa。
print NR ";" substr($0, a[1, "start"], a[1, "length"])レコード番号の印刷（つまり行番号、複数のFNRファイルを処理する場合に使用）、最初のグループに対応する部分;文字列：開始インデックス、長さ（パディングで埋められる）をa[1, "start"]提供します。a[1, "length"]match

これらすべては、1行につき最大1つのアカウントがあると想定しています。

2番目のバリエーションは$1代わりに印刷しますNR。つまりファイルの最初のフィールドは前処理された行番号です。

Question 2

あなたのgrepバージョンがPerl正規表現をサポートしている場合は、振り返ることができます：

grep -Pnio "(?<=account number.)([0-9]{0,15})" text

Answer

あなたのgrepバージョンがPerl正規表現をサポートしている場合は、振り返ることができます：

grep -Pnio "(?<=account number.)([0-9]{0,15})" text

Question 3

入力と出力を考慮すると、awkスクリプトははるかに簡単に見えます。

gawk '/account number/ {
    nr=gensub(/.*account\s*number\s*([0-9]+).*/, "\\1", "g")
    print FNR "; " nr
}'

もちろん、アカウントの抽出と出力形式を必要に応じて調整する必要があります。しかし、あなたはポイントを理解しています。（この機能を使用するにはGNU awkが必要ですgensub。）

Answer

入力と出力を考慮すると、awkスクリプトははるかに簡単に見えます。

gawk '/account number/ {
    nr=gensub(/.*account\s*number\s*([0-9]+).*/, "\\1", "g")
    print FNR "; " nr
}'

もちろん、アカウントの抽出と出力形式を必要に応じて調整する必要があります。しかし、あなたはポイントを理解しています。（この機能を使用するにはGNU awkが必要ですgensub。）

Question 4

私はこの目的のためにPerlを使いたいです。次のように動作する必要があります。

perl -ne 'print "$1; $2\n" if /^(\d+).*account number (\d+)/' input

^\d+最初と2番目のキャプチャグループ（括弧内の部分、ここでは数字）を数字（）で始め、「口座番号」という文字列と数字を含む行に印刷します。 Perlの行番号の概念を印刷するには、$.代わりにを使用します$1。

Answer

私はこの目的のためにPerlを使いたいです。次のように動作する必要があります。

perl -ne 'print "$1; $2\n" if /^(\d+).*account number (\d+)/' input

^\d+最初と2番目のキャプチャグループ（括弧内の部分、ここでは数字）を数字（）で始め、「口座番号」という文字列と数字を含む行に印刷します。 Perlの行番号の概念を印刷するには、$.代わりにを使用します$1。

関連情報