私は「pdfgrep」を使用して複数のPDFファイルで「詳細検索」を実行し、次のように単語を見つけて文書数を数えようとしています。
# pdfgrep -ric PATTERN
./Example1.pdf:0
./Example2.pdf:10
定義された数のファイル出力を無視する方法を知っていますか? 0以下…?
答え1
ファイルパスに改行文字が含まれていないと仮定すると、その出力を次にパイプすることができます。
grep -v ':0$'
で終わる行をフィルタリングします:0
。
または
awk -F: '$NF >= 10'
一致するファイルが10個以上のファイルのみが一覧表示されます。
改行文字を含む任意のファイルパスを処理するには、NUL区切り文字を使用します。
pcregrep -ricZ pattern | gawk -v RS='\0' '
{RS="\n"; getline count; RS="\0"}
count > 0 {print $0":"count}'