PDF文書の1、3、14ページに強調表示されたテキストが含まれているとします。強調表示されたテキストを含むページのページ数を報告できるLinuxコマンドラインツール(または出力を互いにパイプすることができるツールのセット)はありますか?それは次のとおりです。
$ sought_tool --list-pages-with-highlights doc.pdf
1 3 14
答え1
素晴らしい小さなPythonライブラリPDFコメント必要な機能を完全に保有しています。
$ pdfannots doc.pdf
grep
と組み合わせて使用すると、awk
目的の結果が得られます。
$ pdfannots doc.pdf | \
grep "* Page #" | \
awk -F':' '{print $1}' | \
awk -F'#' '{print $2}' | \
sort -u -n | \
paste -s -d ' '
1 3 14