ファイルの内容を取得するシェルスクリプト

Question 1

input.logが入力のときにgawkで動作するこれがありますが、それでもawkとして理解しようとしています。

cat input.log |
 gawk -F"|" \
    #print the header
 'BEGIN{print"Type, Number,ID,submitted,notsubmitted"}
    #only work on non empty lines
 NF>0{ 
     #create an ID from the first three fields
    n=$1","$2","$3; 
        #everytime the ID pops up, increment subindex 1 or 2 depending on the value of field 4
        if($4=="S:1"){
            array[n][2]++}
        else{
            array[n][1]++}
}
     #print the final array
END{for(i in array){
       #if the value has never been seen declare it to be zero
        if(array[i][1]){
            m=array[i][1]}
        else {
            m=0}
        if(array[i][2]){
            n=array[i][2]}
        else {
            n=0}
    print i","m","n}
}'

Answer

input.logが入力のときにgawkで動作するこれがありますが、それでもawkとして理解しようとしています。

cat input.log |
 gawk -F"|" \
    #print the header
 'BEGIN{print"Type, Number,ID,submitted,notsubmitted"}
    #only work on non empty lines
 NF>0{ 
     #create an ID from the first three fields
    n=$1","$2","$3; 
        #everytime the ID pops up, increment subindex 1 or 2 depending on the value of field 4
        if($4=="S:1"){
            array[n][2]++}
        else{
            array[n][1]++}
}
     #print the final array
END{for(i in array){
       #if the value has never been seen declare it to be zero
        if(array[i][1]){
            m=array[i][1]}
        else {
            m=0}
        if(array[i][2]){
            n=array[i][2]}
        else {
            n=0}
    print i","m","n}
}'

Question 2

過去5分以内に変更されたログファイルを見つけるには、たとえばfind。

find data_logs/ -type f -name 'abc.log.*' -mmin -6

以下より少なく変更されたログファイルを見つけます。6数分前だけでも、ほとんどの場合、この程度で十分でした。正確なファイル変更時間が必要な場合は、次を使用します。

find data_logs/ -type f -name 'abc.log.*' \( -mmin -5 -o -mmin 5 \)

5分前または正確に5分前に変更されたファイルは見つかりません。

からman find：

-mmin n
    File's data was last modified n minutes ago.

そして：

数値パラメータは次のように指定できます。
 +n     for greater than n,
 -n     for less than n,
  n     for exactly n.

Answer

過去5分以内に変更されたログファイルを見つけるには、たとえばfind。

find data_logs/ -type f -name 'abc.log.*' -mmin -6

以下より少なく変更されたログファイルを見つけます。6数分前だけでも、ほとんどの場合、この程度で十分でした。正確なファイル変更時間が必要な場合は、次を使用します。

find data_logs/ -type f -name 'abc.log.*' \( -mmin -5 -o -mmin 5 \)

5分前または正確に5分前に変更されたファイルは見つかりません。

からman find：

-mmin n
    File's data was last modified n minutes ago.

そして：

数値パラメータは次のように指定できます。
 +n     for greater than n,
 -n     for less than n,
  n     for exactly n.

Question 3

クロスパブリッシュの問題https://stackoverflow.com/q/57377173/3220113保留されました。ここで許可された回答をコピーします。他の質問は削除できます。

ファイルの場合： まず、awkを使用してストリームを簡単に処理できるようにします（より良いパフォーマンスを得るためにすべてawkで実行できます）。

sed -nr 's/\|/,/g;s/(^R_MT,.*),S:([^ ]) *$/\1 \2/p' <(zcat abc.log.2019041607.gz)

結果（追加テストラインを追加した後）

R_MT,D:1234,ID:413 1
R_MT,D:1234,ID:413 1
R_MT,D:1234,ID:413 1
R_MT,D:1234,ID:413 1
R_MT,D:1234,ID:413 1
R_MT,D:1234,ID:413 1
R_MT,D:1234,ID:413 1
R_MT,D:1234,ID:413 1
R_MT,D:1234,ID:413 1
R_MT,D:1234,ID:413 1
R_MT,D:1234,ID:413 0
R_MT,D:1234,ID:413 0
R_MT,D:1234,ID:413 0
R_MT,D:1234,ID:413 0
R_MT,D:1234,ID:413 0
R_MT,D:1234,ID:414 1
R_MT,D:1234,ID:414 1
R_MT,D:1235,ID:413 1
R_MT,D:1235,ID:413 1

次に、配列aをフィールド名として使用してawkで計算します。

sed -nr 's/\|/,/g;s/(^R_MT,.*),S:([^ ]) *$/\1 \2/p' <(zcat abc.log.2019041607.gz) |
   awk '{a[$1]; if ($2>0) notsub[$1]++; else submit[$1]++;}
        END {for (i in a) print i "," submit[i]+0 "," notsub[i]+0;}
       '

5つのファイルの場合は、まず目的の結果を決定してください。各ファイルには異なる出力ファイルがあります。次のループを使用します。

while IFS= read -r filename; do
   ... <( zcat "${filename}") ...
done < <(find datalogs -type f -name "abc*" -mmin -5)

5つのファイルの結果が単一の合計に追加されます。

... <( find datalogs -type f -name "abc*" -mmin -5 -exec zcat {} \;) ...

Answer