OS X / Linuxシングルライン/テキストファイルで最大の冗長ライングループを見つけるスクリプト？

Question 1

解決策は次のとおりです。TXR言語。

@(next :args)
@(bind rangelim nil)
@(block)
@  (cases)
@filename
@    (maybe)
@rlim
@      (set rangelim @(int-str rlim))
@    (end)
@    (eof)
@  (or)
@    (output)
arguments are: filename [ range-limit ]
@    (end)
@    (fail)
@  (end)
@(end)
@(do
   (defun prefix-match (list0 list1)
     (let ((c 0))
       (each ((l0 list0)
              (l1 list1))
         (if (not (equal l0 l1))
           (return c))
         (inc c))
       c))

   (defun line-stream (s)
     (let (li) (gen (set li (get-line s)) li)))

   (let* ((s (line-stream (open-file filename "r")))
          (lim rangelim)
          (s* (if lim s nil))
          (h (hash :equal-based))
          (max-len 0)
          (max-line nil))
     (for ((ln 1)) (s) ((set s (rest s)) (inc ln))
       (let ((li (first s)))
         (let ((po (gethash h li))) ;; prior occurences
           (each ((line [mapcar car po])
                  (pos [mapcar cdr po]))
             (let ((ml (prefix-match pos s)))
               (cond ((and 
                        (= ml (- ln line))
                        (> ml max-len))
                      (set max-len ml)
                      (set max-line line))))))
         (pushhash h li (cons ln s))
         (if (and lim (> ln lim))
           (let* ((oldli (first s*))
                  (po (gethash h oldli))
                  (po* (remove-if (op eq s* (cdr @1)) po)))
             (if po*
               (sethash h oldli po*)
               (remhash h oldli))
             (set s* (cdr s*))))))
     (if max-line
       (format t "~a line(s) starting at line ~a\n" max-len max-line)
       (format t "no repeated blocks\n"))))

このプログラムはほぼ完全にTXRに組み込まれたLisp方言で構成されています。ここでのアプローチは、ファイルの各行をハッシュテーブルに保存することです。ファイルのどの時点でも、私たちはハッシュテーブルに「この行を以前にどこで見たことがありますか？」と尋ねることができます。その場合は、その場所で始まるファイルと現在の場所で始まる行を比較できます。一致が前の位置から現在の位置に拡張される場合、これは連続した一致があることを意味します。前の位置から現在の行までのすべてのN行は、現在の行から始まり、N行と一致します。私たちがしなければならないのは、すべての候補地の中で最も長い一致を生成する場所を見つけることです。（接続がある場合は、最初の接続のみが報告されます。）

見て、Xorgのログファイルに2行が繰り返しリストされています。

$ txr longseq.txr  /var/log/Xorg.0.log
2 line(s) starting at line 168

168行目には何がありますか？この4行は次のとおりです。

[    19.286] (**) VBoxVideo(0):  Built-in mode "VBoxDynamicMode": 56.9 MHz (scaled from 0.0 MHz), 44.3 kHz, 60.0 Hz
[    19.286] (II) VBoxVideo(0): Modeline "VBoxDynamicMode"x0.0   56.94  1280 1282 1284 1286  732 734 736 738 (44.3 kHz)
[    19.286] (**) VBoxVideo(0):  Built-in mode "VBoxDynamicMode": 56.9 MHz (scaled from 0.0 MHz), 44.3 kHz, 60.0 Hz
[    19.286] (II) VBoxVideo(0): Modeline "VBoxDynamicMode"x0.0   56.94  1280 1282 1284 1286  732 734 736 738 (44.3 kHz)

一方、パスワードファイルはすべて一意です。

$ txr longseq.txr  /etc/passwd
no repeated blocks

2番目の引数を追加してプログラムを高速化できます。最も長い反復シーケンスが50行を超えないことがわかっている場合は、これを指定できます。これにより、プログラムは50行以上を逆追跡しません。また、メモリ使用量はファイルサイズではなく範囲サイズに比例するため、反対方向に勝ちます。

Answer

解決策は次のとおりです。TXR言語。

@(next :args)
@(bind rangelim nil)
@(block)
@  (cases)
@filename
@    (maybe)
@rlim
@      (set rangelim @(int-str rlim))
@    (end)
@    (eof)
@  (or)
@    (output)
arguments are: filename [ range-limit ]
@    (end)
@    (fail)
@  (end)
@(end)
@(do
   (defun prefix-match (list0 list1)
     (let ((c 0))
       (each ((l0 list0)
              (l1 list1))
         (if (not (equal l0 l1))
           (return c))
         (inc c))
       c))

   (defun line-stream (s)
     (let (li) (gen (set li (get-line s)) li)))

   (let* ((s (line-stream (open-file filename "r")))
          (lim rangelim)
          (s* (if lim s nil))
          (h (hash :equal-based))
          (max-len 0)
          (max-line nil))
     (for ((ln 1)) (s) ((set s (rest s)) (inc ln))
       (let ((li (first s)))
         (let ((po (gethash h li))) ;; prior occurences
           (each ((line [mapcar car po])
                  (pos [mapcar cdr po]))
             (let ((ml (prefix-match pos s)))
               (cond ((and 
                        (= ml (- ln line))
                        (> ml max-len))
                      (set max-len ml)
                      (set max-line line))))))
         (pushhash h li (cons ln s))
         (if (and lim (> ln lim))
           (let* ((oldli (first s*))
                  (po (gethash h oldli))
                  (po* (remove-if (op eq s* (cdr @1)) po)))
             (if po*
               (sethash h oldli po*)
               (remhash h oldli))
             (set s* (cdr s*))))))
     (if max-line
       (format t "~a line(s) starting at line ~a\n" max-len max-line)
       (format t "no repeated blocks\n"))))

このプログラムはほぼ完全にTXRに組み込まれたLisp方言で構成されています。ここでのアプローチは、ファイルの各行をハッシュテーブルに保存することです。ファイルのどの時点でも、私たちはハッシュテーブルに「この行を以前にどこで見たことがありますか？」と尋ねることができます。その場合は、その場所で始まるファイルと現在の場所で始まる行を比較できます。一致が前の位置から現在の位置に拡張される場合、これは連続した一致があることを意味します。前の位置から現在の行までのすべてのN行は、現在の行から始まり、N行と一致します。私たちがしなければならないのは、すべての候補地の中で最も長い一致を生成する場所を見つけることです。（接続がある場合は、最初の接続のみが報告されます。）

見て、Xorgのログファイルに2行が繰り返しリストされています。

$ txr longseq.txr  /var/log/Xorg.0.log
2 line(s) starting at line 168

168行目には何がありますか？この4行は次のとおりです。

[    19.286] (**) VBoxVideo(0):  Built-in mode "VBoxDynamicMode": 56.9 MHz (scaled from 0.0 MHz), 44.3 kHz, 60.0 Hz
[    19.286] (II) VBoxVideo(0): Modeline "VBoxDynamicMode"x0.0   56.94  1280 1282 1284 1286  732 734 736 738 (44.3 kHz)
[    19.286] (**) VBoxVideo(0):  Built-in mode "VBoxDynamicMode": 56.9 MHz (scaled from 0.0 MHz), 44.3 kHz, 60.0 Hz
[    19.286] (II) VBoxVideo(0): Modeline "VBoxDynamicMode"x0.0   56.94  1280 1282 1284 1286  732 734 736 738 (44.3 kHz)

一方、パスワードファイルはすべて一意です。

$ txr longseq.txr  /etc/passwd
no repeated blocks

2番目の引数を追加してプログラムを高速化できます。最も長い反復シーケンスが50行を超えないことがわかっている場合は、これを指定できます。これにより、プログラムは50行以上を逆追跡しません。また、メモリ使用量はファイルサイズではなく範囲サイズに比例するため、反対方向に勝ちます。

Question 2

特に重複が多い場合は、大きなログで大きな重複ブロックを見つける最も速く簡単な方法は次のとおりです。

sort long_log.txt | uniq -c | sort -k1n

（回答に基づいてまとめました。ここそしてここ.)

long_log.txtには54秒かかりましたが、これはより繰り返される操作でした。これは私が要求したタスクを正確に実行するスクリプトの問題のようです。一方、ランダムに生成されたlog.txtは47秒かかりました。

行は順序付けされておらず、再帰内に再帰がある場合は行を個別にグループ化できますが（より多くの数がある場合があります）、この方法のデータを使用してログに戻って関連項目を見つけて抽出することもできます。付属。

.bashrcコマンドは関数として/に入れることができます。.bash_profile

recurrence() {
  sort "$1" | uniq -c | sort -k1n
}

これにより、次のように呼び出すことができます。

recurrence long_log.txt

Answer