同様の形式のすべての行を含む大きなログファイルがあります。若干異なる場合がありますが、最初の括弧の前の形式は常にまったく同じです。
31.7.112.60 - - [26/Jan/2019:19:32:08 +0330] "GET /product/31284/%D9%85%D8%A7%D8%B4%DB%8C%D9%86-%D9%84%D8%A8%D8%A7%D8%B3%D8%B4%D9%88%DB%8C%DB%8C-%D8%AF%D8%B1%D8%A8-%D8%A7%D8%B2-%D8%AC%D9%84%D9%88-%D8%A8%D9%88%D8%B4-%D9%85%D8%AF%D9%84-BOSCH-WAW28760IR-9Kg HTTP/1.1" 200 41935 "https://www.google.com/" "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36" "-"
2つのことを行う必要があります。
A)GET /product/XXXXX/
すべての行(一部の行にはない可能性があります)からこのパターンを検索します。ここで、XXXXXは可変桁数(34213、1242、1423124など)にすることができます。次に、最初の20製品を順番に印刷します。これは次の形式でなければなりません。
34286,25
33954,18
33952,17
33956,16
33953,16
B)IPアドレスを使用して1日のネットユーザー数を見つけて出力します。これは次の形式でなければなりません。
22/Jan/2019,3987
26/Jan/2019,5567
答え1
これは単純なWebサーバーログのように見えます。答えはgrep
次のように簡単ですawk
。
ログファイルの名前をで指定しますhttpd.log
。次の複合コマンドを試すことができます。
grep -o 'GET \/product\/[^/]*\/' httpd.log |awk 'BEGIN{FS="\/"}{AA[$3]++}END{for(i in AA){print AA[i]" "i}}'|sort -n -r|awk '{print $2","$1}' |head -n20
最初の部分は重要なテキストがある場合はそれを分離し、2番目の部分は製品番号の各項目を計算して結果を印刷し、3番目の部分はリストをソートし、最後の2つの部分はユーザーが指定した形式で印刷します。
各日付を区切るには、このコマンドの前に別のコマンドを追加してgrep
日付を指定できます。
IP クライアントをフィルタリングするには、上記の例に従って直接試してください。
答え2
awk -v pat="GET /product/[0-9]*" -F'[[:blank:]:[]' '
BEGIN {PROCINFO["sorted_in"]="@val_num_desc"}
$0 ~ pat {match($0, pat)
A[substr($0, RSTART+13, RLENGTH-13)]++}
!C[$5,$1]++ {D[$5]++}
END {for(i in A){if(++j > 20) break; print i "," A[i]}
for(i in D) print i "," D[i]}
' file
BEGIN {PROCINFO["sorted_in"]="@val_num_desc"}
- 配列要素ごとに降順で値ごとにソートを設定します。
$0 ~ pat {match($0, pat);A[substr($0, RSTART+13, RLENGTH-13)]++}
- 値に含まれる製品番号と数量に対応するキーで配列を作成します。
!C[$5,$1]++ {D[$5]++}
- 一意の値を計算します。認証キーは日付とIPで構成されています。
END {for(i in A){ if(++j > 20) break; print i "," A[i]}
- A)ポイントに基づいて配列の最初の20キーと値を印刷します。
for(i in D) print i "," D[i]}
- 値によってソートされた値とキーを出力します。
最後の日付でソートする必要がある場合は、出力をシェルコマンドにリダイレクトできます。最後の行を変更します。
for(i in D) print i "," D[i] | "sort -rt\"/\" -k3,3 -k2,2 -k1,1"}