ライブログファイルの一部の行のみを表示

Question 1

お客様のデータは高度に構造化されています。キー="値"したがって、gnu awkを使用してキー名のリストを引数として使用し、その値のみを印刷する小さなシェルスクリプトを作成できます。例えばmyscript:

#!/bin/bash
awk -v lhs="$*" '
BEGIN{  FPAT = "[a-z-]*=\"[^\"]*\""
        nwant = split(lhs,want)
}
{       for(i=1;i<=NF;i++){
            start = match($i,/([a-z-]*)="([^"]*)"/,a)
            key[a[1]] = a[2]
        }
        for(i=1;i<=nwant;i++){printf "%s ",key[want[i]]; key[want[i]] = ""}
        printf "\n"
}'

これmyscript srcip categoryname urlにより、awk変数は最初に配列に分割されるlhs単一の文字列に設定されます。want行は awk によってパターンに一致するフィールドに分割されます。キー="値"組み込みFPAT変数を使用します。

各行の各フィールドに対して2つのキャプチャグループに分割しますmatch()。 1つはキー用で、もう1つは二重引用符内の部分用です。これはawkによって配列に格納され、キー文字列でインデックス付けされた連想配列aに保存されます。key

次に、必要な各キーの値を印刷し、その行にそのキーがない場合は、次の行の値を消去します。明らかに、これはすべてのデータが必要な構造を持っていると仮定し、アルファベット以外の文字を持つ値またはキー内で（ "）を処理するように変更する必要があります。

4.0より前のGNU awk（gawk）バージョンには、パターンに一致するフィールドにFPAT行を分割する機能が組み込まれていないため、これを直接実行する必要がありました。

#!/bin/bash
awk -v lhs="$*" '
BEGIN{ nwant = split(lhs,want) }
{       input = $0
        while(match(input,"[a-z-]*=\"[^\"]*\"")>0){
            field = substr(input,RSTART,RLENGTH)
            input = substr(input,RSTART+RLENGTH)
            start = match(field,/([a-z-]*)="([^"]*)"/,a)
            key[a[1]] = a[2]
        }
        for(i=1;i<=nwant;i++){printf "%s ",key[want[i]]; key[want[i]] = ""}
        printf "\n"
}'

明らかに、2つの一致呼び出しを1つにまとめることができますが、これは元の一致との違いを示しています。

Answer

お客様のデータは高度に構造化されています。キー="値"したがって、gnu awkを使用してキー名のリストを引数として使用し、その値のみを印刷する小さなシェルスクリプトを作成できます。例えばmyscript:

#!/bin/bash
awk -v lhs="$*" '
BEGIN{  FPAT = "[a-z-]*=\"[^\"]*\""
        nwant = split(lhs,want)
}
{       for(i=1;i<=NF;i++){
            start = match($i,/([a-z-]*)="([^"]*)"/,a)
            key[a[1]] = a[2]
        }
        for(i=1;i<=nwant;i++){printf "%s ",key[want[i]]; key[want[i]] = ""}
        printf "\n"
}'

これmyscript srcip categoryname urlにより、awk変数は最初に配列に分割されるlhs単一の文字列に設定されます。want行は awk によってパターンに一致するフィールドに分割されます。キー="値"組み込みFPAT変数を使用します。

各行の各フィールドに対して2つのキャプチャグループに分割しますmatch()。 1つはキー用で、もう1つは二重引用符内の部分用です。これはawkによって配列に格納され、キー文字列でインデックス付けされた連想配列aに保存されます。key

次に、必要な各キーの値を印刷し、その行にそのキーがない場合は、次の行の値を消去します。明らかに、これはすべてのデータが必要な構造を持っていると仮定し、アルファベット以外の文字を持つ値またはキー内で（ "）を処理するように変更する必要があります。

4.0より前のGNU awk（gawk）バージョンには、パターンに一致するフィールドにFPAT行を分割する機能が組み込まれていないため、これを直接実行する必要がありました。

#!/bin/bash
awk -v lhs="$*" '
BEGIN{ nwant = split(lhs,want) }
{       input = $0
        while(match(input,"[a-z-]*=\"[^\"]*\"")>0){
            field = substr(input,RSTART,RLENGTH)
            input = substr(input,RSTART+RLENGTH)
            start = match(field,/([a-z-]*)="([^"]*)"/,a)
            key[a[1]] = a[2]
        }
        for(i=1;i<=nwant;i++){printf "%s ",key[want[i]]; key[want[i]] = ""}
        printf "\n"
}'

明らかに、2つの一致呼び出しを1つにまとめることができますが、これは元の一致との違いを示しています。

Question 2

使用（POSIX規格）sed...

sed 's/.* srcip="\([^"]*\)" .* url="\([^"]*\)" .* categoryname="\([^"]*\)" .*/\1 \3 \2/' logfile

ここには素晴らしい内容はありません。キーを見つけて値を括弧で囲み、逆\(..\)参照として使用できます。次に、文字列を必要に応じてソートされたスペースで区切られた逆参照に置き換えます\1 \3 \2。

出力：

10.11.12.13 Uncategorized https://website.net/
10.13.14.15 Education/Reference http://host.com/mini_banner.png

ログにこれらのキーがすべて含まれていない文字列が含まれている場合は、次のものを使用できます。

sed -n 's/.* srcip="\([^"]*\)" .* url="\([^"]*\)" .* categoryname="\([^"]*\)" .*/\1 \3 \2/p' logfile

これにより、パターンに一致する行だけが印刷されます。

もちろん、ストリーミングに使用するには、ファイル名を削除して次のようにします。[something sending logs to stdout] | sed ...

Answer