PDFファイルからキーワードを検索[重複]

PDFファイルからキーワードを検索[重複]

Linux Shellを使用して特定のキーワードのPDFファイルを検索したいと思います。これを行うには、grepコマンドをどのように使用しますか?

答え1

そうではありません。 PDFはバイナリ形式なので、まずテキストに変換する必要があります。 Grepはデータを取得できますが、PDFビューアで開くときに文字列を含むPDFに実際に生のバイナリデータがfoo含まれていると仮定する理由はありません。fooソースコードに書き込む方法は非常に異なる場合があります。

簡単な解決策はインストールしpdftotextて使用することです。ディストリビューションリポジトリで利用できる必要があります。 Debian ベースのシステムでは、次のコマンドを使用してインストールできます。

sudo apt-get install poppler-utils

その後、次を使用してPDFファイルを検索できます。

pdftotext foo.pdf - | grep keyword

関連情報