コマンドラインから一括検索できるように、テキスト形式のPDFファイルが必要です。 Ubuntu、OBSDなどのディストリビューション用のコンバータはありますか?
たぶん関連記事、Ubuntuを使ったOCRここ。
答え1
様々なオプションがあります!
pdftotext
~からポプラすでに言及しました。
持つHaskellプログラムは次のとおりです。pdf2line
良い結果。
口径コマンドebook-convert
ラインプログラム(または口径自体)は、PDFをプレーンテキストまたは他の電子書籍形式(RTF、ePub)に変換するための別のオプションです。
ebook-convert file.pdf file.txt
アビマルコマンドラインで知っているすべての形式間で変換でき、少なくともオプションでPDFインポートプラグインがあります。
abiword --to=txt file.pdf
別のオプションはpodofotextextract
次のとおりです。podofo PDFツールライブラリ。私はまだそれを実際に試していません。
Ghostscriptツールpdf2ps
とその両方を使用している場合は、ps2ascii
他のオプションがあります。
実際、他の方法も考えることができますが、今はそれです。 ;)
答え2
コマンドラインからPDFをテキストに変換できます。PDFをテキストとして(Ubuntu:ポプラツール; OpenBSD:xpdf-utils
パッケージ)。
あなたはそれを使用することができます記録
(Ubuntu:思い出す; OpenBSD:ポートはありませんが、ポートは1つです。FreeBSD.) PDF を含むさまざまな形式のテキスト文書タイプを検索します。バックグラウンドで自動的にインデックスを生成するGUIがあります。pdftotext
PDFをテキストに変換するために使用されます。
Acrobat Reader(Linuxの場合はバージョン9以降)にはマルチファイル検索機能が制限されています(ディレクトリ内のすべてのファイルを検索できます)。
答え3
pdftotextがあなたが探しているものかもしれません:http://en.wikipedia.org/wiki/Pdftotext抽出したいテキストが実際にPDF文書では一般的ではないグラフィック形式ではない限り。
答え4
pdftotextは私にあらゆる種類の形式の問題を提供しますが(オプションの調整を含む場合でも)ツール間変換完全に動作