PDFをテキストに変換する一種のコンバータはありますか?

PDFをテキストに変換する一種のコンバータはありますか?

コマンドラインから一括検索できるように、テキスト形式のPDFファイルが必要です。 Ubuntu、OBSDなどのディストリビューション用のコンバータはありますか?

たぶん関連記事、Ubuntuを使ったOCRここ

答え1

様々なオプションがあります!

pdftotext~からポプラすでに言及しました。

持つHaskellプログラムは次のとおりです。pdf2line良い結果。

口径コマンドebook-convertラインプログラム(または口径自体)は、PDFをプレーンテキストまたは他の電子書籍形式(RTF、ePub)に変換するための別のオプションです。

ebook-convert file.pdf file.txt

アビマルコマンドラインで知っているすべての形式間で変換でき、少なくともオプションでPDFインポートプラグインがあります。

abiword --to=txt file.pdf

別のオプションはpodofotextextract次のとおりです。podofo PDFツールライブラリ。私はまだそれを実際に試していません。

Ghostscriptツールpdf2psとその両方を使用している場合は、ps2ascii他のオプションがあります。

実際、他の方法も考えることができますが、今はそれです。 ;)

答え2

コマンドラインからPDFをテキストに変換できます。PDFをテキストとして(Ubuntu:ポプラツール; OpenBSD:xpdf-utilsパッケージ)。

あなたはそれを使用することができます記録 (Ubuntu:思い出す; OpenBSD:ポートはありませんが、ポートは1つです。FreeBSD.) PDF を含むさまざまな形式のテキスト文書タイプを検索します。バックグラウンドで自動的にインデックスを生成するGUIがあります。pdftotextPDFをテキストに変換するために使用されます。

Acrobat Reader(Linuxの場合はバージョン9以降)にはマルチファイル検索機能が制限されています(ディレクトリ内のすべてのファイルを検索できます)。

答え3

pdftotextがあなたが探しているものかもしれません:http://en.wikipedia.org/wiki/Pdftotext抽出したいテキストが実際にPDF文書では一般的ではないグラフィック形式ではない限り。

答え4

pdftotextは私にあらゆる種類の形式の問題を提供しますが(オプションの調整を含む場合でも)ツール間変換完全に動作

関連情報