コマンドラインで強調表示されたテキストを含むPDFページを識別する方法

コマンドラインで強調表示されたテキストを含むPDFページを識別する方法

PDF文書の1、3、14ページに強調表示されたテキストが含まれているとします。強調表示されたテキストを含むページのページ数を報告できるLinuxコマンドラインツール(または出力を互いにパイプすることができるツールのセット)はありますか?それは次のとおりです。

$ sought_tool --list-pages-with-highlights doc.pdf
1 3 14

答え1

素晴らしい小さなPythonライブラリPDFコメント必要な機能を完全に保有しています。

$ pdfannots doc.pdf

grepと組み合わせて使用​​すると、awk目的の結果が得られます。

$ pdfannots doc.pdf | \
  grep "* Page #" | \
  awk -F':' '{print $1}' | \
  awk -F'#' '{print $2}' | \
  sort -u -n | \
  paste -s -d ' '
1 3 14

関連情報