2行目が特定の正規表現に正確に一致するディレクトリ内のすべてのファイルを(再帰的に)リストしたいと思います。総ファイル数は約60Kです。
find /path -type f | xargs --no-run-if-empty -n1000 awk 'FNR = 2 && $0 ~ /^regular expression$/ {print FILENAME; nextfile}'
これまで、私は次のコマンドを書きました。
効率を向上させることはできますか?
答え1
=
まず、正しく使用するのではなく、誤って使用していることに注意してください==
。
その必要はありませんxargs
。ただ実行するだけですfind
。また、awk
ファイル全体を読み取るのではなく、行2を処理した直後に終了する必要があります。
find /path -type f -exec awk 'FNR == 2 && /^regular expression$/ {print FILENAME}; FNR == 2 {nextfile}' '{}' +
引数+
の末尾にある-exec
ディレクティブは、find
できるだけ多くのファイル名引数を配置します。ララxargs
。バラよりfind
文書。
ここで重要な点はですFNR==2 {nextfile}
。
(しかし、可能であれば&を使用する-exec
よりも)より良いかどうかは議論の余地があります。一方では、以前のバッチの検証中により多くのファイル名を読み取ることができるようにすることで、ある程度の並列処理が達成されます。一方、並列化により、不良ディスクがディスク上の他のトラックと競合する可能性があります。ハードウェア(キャッシュサイズ、SSDなど)によってこの内容が変わります。その後、プロファイルが決定します。xargs
-print0
-0
find … | xargs …
find
awk
awk
find
答え2
あなたは試すことができます:
grep -n <reg expr> /path/to/* | grep ":2:" | cut -d ':' -f1
:2:
その一部ではない限り<reg expr>
。
-x
完全なラインマッチもあります。
これが速いかどうかはわかりません。テストするファイルが60,000個ありません。]