pdfgrepを使用して複数のPDFファイルを詳細に検索し、以下の数字を無視します。

pdfgrepを使用して複数のPDFファイルを詳細に検索し、以下の数字を無視します。

私は「pdfgrep」を使用して複数のPDFファイルで「詳細検索」を実行し、次のように単語を見つけて文書数を数えようとしています。

# pdfgrep -ric PATTERN

./Example1.pdf:0
./Example2.pdf:10

定義された数のファイル出力を無視する方法を知っていますか? 0以下…?

答え1

ファイルパスに改行文字が含まれていないと仮定すると、その出力を次にパイプすることができます。

grep -v ':0$'

で終わる行をフィルタリングします:0

または

awk -F: '$NF >= 10'

一致するファイルが10個以上のファイルのみが一覧表示されます。

改行文字を含む任意のファイルパスを処理するには、NUL区切り文字を使用します。

pcregrep -ricZ pattern | gawk -v RS='\0' '
  {RS="\n"; getline count; RS="\0"}
  count > 0 {print $0":"count}'

関連情報