Linux Shellを使用して特定のキーワードのPDFファイルを検索したいと思います。これを行うには、grepコマンドをどのように使用しますか?
答え1
そうではありません。 PDFはバイナリ形式なので、まずテキストに変換する必要があります。 Grepはデータを取得できますが、PDFビューアで開くときに文字列を含むPDFに実際に生のバイナリデータがfoo
含まれていると仮定する理由はありません。foo
ソースコードに書き込む方法は非常に異なる場合があります。
簡単な解決策はインストールしpdftotext
て使用することです。ディストリビューションリポジトリで利用できる必要があります。 Debian ベースのシステムでは、次のコマンドを使用してインストールできます。
sudo apt-get install poppler-utils
その後、次を使用してPDFファイルを検索できます。
pdftotext foo.pdf - | grep keyword