発生回数に応じて印刷を制限する方法（AWK）

Question

このPerlスクリプトは、基準（ "image /"、> 100000バイト、参照者= '-'）と一致する各ログ行をIPアドレスとして入力された配列ハッシュに保存します。スクリプトの最後に、14個以上のエントリを含むすべてのIPアドレスのすべての配列行を印刷します。

多くのメモリを使用しますが、各入力行を格納するほど多くはありません。

1行に圧縮できますが、何らかの理由で読み取れない、またはデバッグできません。

#! /usr/bin/perl

use strict;

my %LOGLINES = ();

while (<>) {
    next unless (/\bimage\//);
    my @F=split("\t");
    next unless ($F[10] eq '-');
    next unless ($F[13] > 100000);

    push @{ $LOGLINES{$F[2]} }, $_;
};  

foreach my $key (sort keys %LOGLINES) {
   print @{ $LOGLINES{$key} } if (scalar @{ $LOGLINES{$key} } > 14);
}

Perl配列は1ベースではなく0ベースです。したがって、フィールド番号は、指定したフィールド番号から-1だけオフセットされます。

ここに表示されている各IPアドレスに対して最大15行だけ保存してから、表示される一致する行の印刷を開始するため、多くのメモリを使用しない別のバージョンがあります。欠点は、出力がIPアドレスによってソートされないことですsort -t $'\t' -k2。

#! /usr/bin/perl

use strict;

my %LOGLINES = ();
my %count = ();

while (<>) {
    next unless (/\bimage\//);
    my @F=split("\t");
    next unless ($F[10] eq '-');
    next unless ($F[13] > 12000);

    $count{ $F[2] }++;

    if ($count{ $F[2] } == 15) {
      print @{ $LOGLINES{$F[2]} };   # print all the log lines we've seen so far
      print $_;                      # print the current line
    } elsif ($count{ $F[2] } > 15) {
      print $_;                      # print the current line
    } else {
      push @{ $LOGLINES{$F[2]} }, $_; # store the log line for later use
    }
};

Answer 1