私は非常に一貫してフォーマットされ、私が制御できるログファイルを持っています。一定の長さのパイプで区切られたフィールドを生成します。
私が作成したいフィルタリングプロセスに関連する2つのフィールドがあります。これを基本と補助と呼びます。
Grepを使用すると、まず主要なコンテンツをフィルタリングできます。これにより、関連する行の不完全なリストが生成されます。セカンダリフィールドに2つの異なる値のいずれかを持つ複数の行がこのリストに表示されます。プライマリフィールドと一致しないが一方または他のセカンダリフィールド値と一致するプライマリフィールドが空の別の行があります。これらすべての行は互いに関連しています。最終出力に表示したいのですが、最初のステップを完了するまではわかりません。
一致するセカンダリフィールドを持つすべてのエントリには、初期プライマリフィールドまたは空のプライマリフィールドがあります。いずれにしても、補助フィールドは空ではありません。
私の戦略は1.ログファイルを一度awkし、デフォルトフィールドに一致するすべての行を削除することです(これはスクリプトへの入力です)。これらの各行に対して、2つの可能な一致する補助フィールド値が見つかるまで、補助フィールドが解決されます。 2.ログファイルを再確認し、プライマリフィールドが一致するか、セカンダリフィールドが最初のステップで学習された2つの値のいずれかに一致するすべての行を削除します。
ラウンド 1 で学習した 2 つのセカンダリフィールド値をどのように保存したら、それを使用して 2 ラウンドの条件を作成できますか?
例を提供するように求められたので、ここに要点を説明する単純化されたデータバージョンがあります。 「Major」はフィールド2、「minor」はフィールド3です。
最初のプルです。 (入力値は05478900172です。)
2015-03-10 09:13:40,598|05478900172|4792761 | 15|s|D|S|----
2015-03-10 09:13:40,601|05478900172|4792761 | 15|s|D|S|----
2015-03-10 09:13:40,601|05478900172|4792761 | 15|s|D|S|----
2015-03-10 09:13:40,601|05478900172|4792761 | 15|s|D|S|----
2015-03-10 09:13:40,601|05478900172|4792761 | 15|s|D|S|----
2015-03-10 09:13:40,617|05478900172|4792761 | 15|s|D|S|----
2015-03-10 09:13:40,617|05478900172|4792761 | 15|s|D|S|----
2015-03-10 09:13:40,626|05478900172|4792761 | 15|s|D|S|----
2015-03-10 09:13:40,626|05478900172|4792761 | 15|s|D|S|----
2015-03-10 09:14:16,686|05478900172|4792964 | 41|s|D|S|----
2015-03-10 09:14:16,694|05478900172|4792964 | 41|s|D|S|----
2015-03-10 09:14:16,694|05478900172|4792964 | 41|s|D|S|----
2015-03-10 09:14:16,694|05478900172|4792964 | 41|s|D|S|----
2015-03-10 09:14:16,695|05478900172|4792964 | 41|s|D|S|----
2015-03-10 09:14:16,705|05478900172|4792964 | 41|s|D|S|----
2015-03-10 09:14:16,705|05478900172|4792964 | 41|s|D|S|----
2015-03-10 09:14:16,714|05478900172|4792964 | 41|s|D|S|----
2015-03-10 09:14:16,714|05478900172|4792964 | 41|s|D|S|----
2015-03-10 09:14:23,838|05478900172|4792964 | 43|s|D|S|----
2015-03-10 09:14:23,878|05478900172|4792964 | 43|s|D|S|----
2015-03-10 09:14:23,878|05478900172|4792964 | 43|s|D|S|----
2015-03-10 09:14:23,879|05478900172|4792964 | 43|s|D|S|----
2015-03-10 09:14:23,879|05478900172|4792964 | 43|s|D|S| 0
2015-03-10 09:14:23,879|05478900172|4792964 | 43|s|D|S|----
2015-03-10 09:14:23,888|05478900172|4792964 | 43|s|D|S|----
2015-03-10 09:14:23,888|05478900172|4792964 | 43|s|D|S|----
2015-03-10 09:15:01,915|05478900172|4792761 | 17|s|D|S|----
2015-03-10 09:15:01,917|05478900172|4792761 | 17|s|D|S|----
2015-03-10 09:15:01,917|05478900172|4792761 | 17|s|D|S|----
2015-03-10 09:15:01,917|05478900172|4792761 | 17|s|D|S|----
2015-03-10 09:15:01,917|05478900172|4792761 | 17|s|D|S|----
2015-03-10 09:15:01,936|05478900172|4792761 | 17|s|D|S|----
2015-03-10 09:15:01,936|05478900172|4792761 | 17|s|D|S|----
2015-03-10 09:15:01,945|05478900172|4792761 | 17|s|D|S|----
2015-03-10 09:15:01,946|05478900172|4792761 | 17|s|D|S|----
これにより、セカンダリフィールド($ 3)には、プライマリフィールドの2つの可能な値(4792761または4792964)が含まれていることがわかります。
私たちは、スクリプトから05478900172を含む$ 2のすべてのレコードと(4792761または4792964)を含む$ 3のすべてのレコードを含む次のデータセットを抽出したいと思います。最初のスキャンが完了するまでこれらの2つの値がわからないため、この値を最初のパスと2番目のパスの間で何らかの方法で共有される変数に渡す必要があります。
2015-03-10 09:13:40,598|05478900172|4792761 | 15|s|D|S|----
2015-03-10 09:13:40,601|05478900172|4792761 | 15|s|D|S|----
2015-03-10 09:13:40,601|05478900172|4792761 | 15|s|D|S|----
2015-03-10 09:13:40,601|05478900172|4792761 | 15|s|D|S|----
2015-03-10 09:13:40,601|05478900172|4792761 | 15|s|D|S|----
2015-03-10 09:13:40,608| null|4792761 |---|-|K|-|----
2015-03-10 09:13:40,608| null|4792761 |---|-|K|-|----
2015-03-10 09:13:40,617| null|4792761 |---|r|D|S|----
2015-03-10 09:13:40,617|05478900172|4792761 | 15|s|D|S|----
2015-03-10 09:13:40,617|05478900172|4792761 | 15|s|D|S|----
2015-03-10 09:13:40,626|05478900172|4792761 | 15|s|D|S|----
2015-03-10 09:13:40,626|05478900172|4792761 | 15|s|D|S|----
2015-03-10 09:14:16,686|05478900172|4792964 | 41|s|D|S|----
2015-03-10 09:14:16,694|05478900172|4792964 | 41|s|D|S|----
2015-03-10 09:14:16,694|05478900172|4792964 | 41|s|D|S|----
2015-03-10 09:14:16,694|05478900172|4792964 | 41|s|D|S|----
2015-03-10 09:14:16,695|05478900172|4792964 | 41|s|D|S|----
2015-03-10 09:14:16,696| null|4792964 |---|-|K|-|----
2015-03-10 09:14:16,696| null|4792964 |---|-|K|-|----
2015-03-10 09:14:16,704| null|4792964 |---|r|D|S|----
2015-03-10 09:14:16,705|05478900172|4792964 | 41|s|D|S|----
2015-03-10 09:14:16,705|05478900172|4792964 | 41|s|D|S|----
2015-03-10 09:14:16,714|05478900172|4792964 | 41|s|D|S|----
2015-03-10 09:14:16,714|05478900172|4792964 | 41|s|D|S|----
2015-03-10 09:14:16,760| null|4792964 |---|r|D|S|----
2015-03-10 09:14:16,760| null|4792964 |---|r|D|S|----
2015-03-10 09:14:23,817| null|4792964 | 42|-|D|S|----
2015-03-10 09:14:23,817| null|4792964 | 42|-|D|S|----
2015-03-10 09:14:23,817| null|4792964 | 42|-|D|S|7057
2015-03-10 09:14:23,817| null|4792964 | 42|-|D|S|----
2015-03-10 09:14:23,818| null|4792964 | 42|-|D|S|----
2015-03-10 09:14:23,818| null|4792964 | 42|-|D|S|----
2015-03-10 09:14:23,838|05478900172|4792964 | 43|s|D|S|----
2015-03-10 09:14:23,876| null|4792964 |---|-|K|-|----
2015-03-10 09:14:23,876| null|4792964 |---|-|K|-|----
2015-03-10 09:14:23,878|05478900172|4792964 | 43|s|D|S|----
2015-03-10 09:14:23,878|05478900172|4792964 | 43|s|D|S|----
2015-03-10 09:14:23,878| null|4792964 |---|r|D|S|----
2015-03-10 09:14:23,879|05478900172|4792964 | 43|s|D|S|----
2015-03-10 09:14:23,879| null|4792964 |---|r|D|S|----
2015-03-10 09:14:23,879|05478900172|4792964 | 43|s|D|S| 0
2015-03-10 09:14:23,879|05478900172|4792964 | 43|s|D|S|----
2015-03-10 09:14:23,888|05478900172|4792964 | 43|s|D|S|----
2015-03-10 09:14:23,888|05478900172|4792964 | 43|s|D|S|----
2015-03-10 09:15:01,915|05478900172|4792761 | 17|s|D|S|----
2015-03-10 09:15:01,917|05478900172|4792761 | 17|s|D|S|----
2015-03-10 09:15:01,917|05478900172|4792761 | 17|s|D|S|----
2015-03-10 09:15:01,917|05478900172|4792761 | 17|s|D|S|----
2015-03-10 09:15:01,917|05478900172|4792761 | 17|s|D|S|----
2015-03-10 09:15:01,925| null|4792761 |---|-|K|-|----
2015-03-10 09:15:01,925| null|4792761 |---|-|K|-|----
2015-03-10 09:15:01,936| null|4792761 |---|r|D|S|----
2015-03-10 09:15:01,936|05478900172|4792761 | 17|s|D|S|----
2015-03-10 09:15:01,936|05478900172|4792761 | 17|s|D|S|----
2015-03-10 09:15:01,945|05478900172|4792761 | 17|s|D|S|----
2015-03-10 09:15:01,946|05478900172|4792761 | 17|s|D|S|----
答え1
@KMのリクエストに応じて、私の答えは次のようになります。
#! /bin/sh
# this script pulls all rows from a log that are directly or
# indirectly related to a given session id. Session IDs are stored
# in $2 of each row. This field may be null. Directly related
# rows are those with $2 matching the supplied parameter. Indirectly
# related rows are those with $3 (aka xid) matching $3 in some other
# row where $2 matches the supplied parameter.
# It may be assumed that for any rows with the same $3,
# the $2 field will be identical or null.
SESS_SRCH="$1"
if [ -z $2 ]
then
LOGFILE=/path/to/default/log
else
LOGFILE=$2
fi
# pass 1:
# read the logfile once to find all unique XIDs associated
# with the supplied session ID ($SESS_SRCH)
XIDS=$(awk -F\| -v sessid="$1" '$2 ~ sessid { xids[$3]=0 }
END{
for (xid in xids) {
print xid
}
}' < ${LOGFILE}
)
XID_SRCH=""
#build a search string from these xids to form a new search string.
for XID in $XIDS
do
XID_SRCH="${XID_SRCH}|${XID}"
done
#strip off the leading "|"
XID_SRCH=${XID_SRCH:1}
# pass 2
# read the logfile again, this time seaching on $3, for any of the
# xids found in pass 1.
awk -F\| -v search="$XID_SRCH" '$3 ~ search { print }' < ${LOGFILE}
答え2
以下は、あなたが探しているタスクを実行するいくつかのコードスニペットです。私の考えでは、問題は論理的な問題です。このループの出力は、2回目のテストが完了したかどうかにかかわらず同じです。なぜなら、一致が発生するたびに発生するからです。 。第二に、awkを実行するときに説明するよりも複雑なテストを実行する必要があるようです。
このコードスニペットが実行する作業は、最初にデータファイルからフィールド2に一致するすべての行を抽出し、フィールド3を抽出してからソートとuniqを使用してフィールド3の重複エントリを削除することです。次に、各uniqフィールド3の値に対してwhileループ(4792761または4792964)を実行します。ただし、今回はPATTERNに対してフィールド2をテストし、ループ値に対してフィールド3をテストします。
PATTERN="05478900172"
awk -F\| -v matchpat="$PATTERN" '$2 ~ matchpat {print $3}' | sort | uniq | while read field
do
awk -F\| -v matchpat=$PATTERN -v secondpat="$field" '$2 ~ matchpat { if ( $3 ~ secondpat ) {print $0}}' datafile
done
これで、フィールド3をソートキーとして最初のawkコマンドの出力をソートして単純化し、whileループを削除できるので、説明するよりも複雑な作業をしたいと思います。