まず、以前にこのような質問があればお詫び申し上げます。既存の投稿の中でしばらく検索してみましたが、サポートが見つかりませんでした。
私は、複数ページの検索不可能なPDFをOCRし、そのPDFを画像の上にテキストレイヤーを含む新しいPDFファイルに変換するFedoraのソリューションに興味があります。 Mac OSXまたはWindowsではAdobe Acrobatを使用できますが、Linux(特にFedora)のソリューションはありますか?
これ説明された解決策があるようです。しかし、残念ながら、正確な画像の検索中に失われました。
答え1
ocrmypdf
うまく行われており、次のように使用できます。
ocrmypdf in.pdf out.pdf
取付ける:
pip install ocrmypdf
または
sudo apt install ocrmypdf # ubuntu
sudo dnf -y install ocrmypdf # fedora
答え2
学習後ハイパーキューブこれで、検索可能なPDFを生成することも可能です。スクリプトサンドイッチを見つけました。http://www.tobias-elze.de/pdfsandwich/
依存関係をインストールした後(完全なリストではない可能性があります)
sudo dnf install svn ocaml unpaper tesseract
スクリプトガイドに従ってソースからコンパイルしました。
ソースコードからコンパイル
pdfsandwichはオープンソースソフトウェアです(ライセンス:GPL)。プロジェクトのWebサイトのダウンロード領域から.tar.bz2パッケージのソースコードをダウンロードするか、Subversionで表示できます。
svn checkout svn://svn.code.sf.net/p/pdfsandwich/code/trunk/src pdfsandwich
OCamlがシステムにインストールされている場合は、次のようにコンパイルしてインストールできます。
cd pdfsandwich
./configure
make
sudo make install
今走ることができます。
sandwich multipaged-non-searchable.pdf
検索可能なPDFを生成します。
ここpdfsandwichを含むリポジトリ(Debian Stable、AUR、Homebrewなど)のリスト。
答え3
Ubuntuで利用できる簡単なツールは、PDFを生成し、元の文書にOCRテキストを重ねることができる「ocrfeeder」です。 Tesseractや他のOCRエンジン(どんなものかわからない)を使用し、画像の回転/「ペーパー解除」などを提供します。
答え4
私も同じ問題があり、週末にこの記事を書きました。一度試してみてください。素晴らしい作品!シンプルなパッケージですtesseract
。pdftoppm
PDFをTIFFファイルの束に変換し、tesseract
OCR(光学文字認識)を実行し、検索可能なPDFを出力として生成するために使用されます。スクリプトが完了すると、すべての中間一時ファイルが自動的に削除されます。
ソースコード:https://github.com/ElectricRCAaircraftGuy/PDF2SearchablePDF
インストールおよび使用説明書pdf2searchablepdf
:
テスト対象Ubuntu18.042019年11月11日以降Ubuntu 20.042020年11月。
取付ける:
git clone https://github.com/ElectricRCAircraftGuy/PDF2SearchablePDF.git
./PDF2SearchablePDF/install.sh
sudo apt update
sudo apt install tesseract-ocr
使用:
# General:
pdf2searchablepdf [options] <input.pdf|dir_of_imgs> [lang]
# Make a PDF searchable:
pdf2searchablepdf mypdf.pdf
# Make an entire directory of images into a single searchable PDF:
pdf2searchablepdf directory_of_imgs
これで、次のファイルが作成されます。mypdf_searchable.pdf、検索可能なテキストが含まれています!
完璧。現在完全にbashで書かれているので、Pythonの依存関係はありません。
pdf2searchablepdf -h
その他のオプションと例については、リソースヘルプメニューを参照してください。
参考資料または関連資料:
- PDF2 検索可能な PDF:https://github.com/ElectricRCAaircraftGuy/PDF2SearchablePDF
- https://askubuntu.com/questions/473843/how-to-turn-a-pdf-into-a-text-searchable-pdf/1187881#1187881
- https://askubuntu.com/questions/16268/whats-the-best-simplest-ocr-solution
- https://askubuntu.com/questions/150100/extracting-embedded-images-from-a-pdf/1187844#1187844
- PDFサンドイッチ:今見つけた代替ソフトウェアラッパーも試してみる価値があります!http://www.tobias-elze.de/pdfsandwich/