パターンが複数行かどうかに関係なく、PDFファイルからパターンのページ番号のみを取得する方法は？

Question 1

これは少しハッキングされていますが、すでにPerl互換REを使用しているため、「左に保持」\K修飾子を使用して式のすべての項目（および次の行が終わる前のすべての項目）を一致させることはできますが、削除できます。出力から次を除外します。

pdfgrep -Pn '(?s)image\s+?not\s+?available.*?$\K'  main_text.pdf

ただし、出力にはまだ区切り:文字が含まれています。

Answer

これは少しハッキングされていますが、すでにPerl互換REを使用しているため、「左に保持」\K修飾子を使用して式のすべての項目（および次の行が終わる前のすべての項目）を一致させることはできますが、削除できます。出力から次を除外します。

pdfgrep -Pn '(?s)image\s+?not\s+?available.*?$\K'  main_text.pdf

ただし、出力にはまだ区切り:文字が含まれています。

Question 2

$0~":"awkリーダーとして追加されました。つまり、次のような行を取得します。

 .... | awk -F":" '$0~":"{print $1}'

これにより、入力行に「：」がある場合にのみ出力が印刷され、他の行は削除されます。

Answer

$0~":"awkリーダーとして追加されました。つまり、次のような行を取得します。

 .... | awk -F":" '$0~":"{print $1}'

これにより、入力行に「：」がある場合にのみ出力が印刷され、他の行は削除されます。

関連情報