PDFファイルをOCRしてPDFに保存されているテキストをインポートする方法は?

PDFファイルをOCRしてPDFに保存されているテキストをインポートする方法は?

まず、以前にこのような質問があればお詫び申し上げます。既存の投稿の中でしばらく検索してみましたが、サポートが見つかりませんでした。

私は、複数ページの検索不可能なPDFをOCRし、そのPDFを画像の上にテキストレイヤーを含む新しいPDFファイルに変換するFedoraのソリューションに興味があります。 Mac OSXまたはWindowsではAdobe Acrobatを使用できますが、Linux(特にFedora)のソリューションはありますか?

これ説明された解決策があるようです。しかし、残念ながら、正確な画像の検索中に失われました。

答え1

ocrmypdfうまく行われており、次のように使用できます。

ocrmypdf in.pdf out.pdf

取付ける:

pip install ocrmypdf

または

sudo apt install ocrmypdf     # ubuntu
sudo dnf -y install ocrmypdf  # fedora

答え2

学習後ハイパーキューブこれで、検索可能なPDFを生成することも可能です。スクリプトサンドイッチを見つけました。http://www.tobias-elze.de/pdfsandwich/

依存関係をインストールした後(完全なリストではない可能性があります)

sudo dnf install svn ocaml unpaper tesseract

スクリプトガイドに従ってソースからコンパイルしました。

ソースコードからコンパイル

pdfsandwichはオープンソースソフトウェアです(ライセンス:GPL)。プロジェクトのWebサイトのダウンロード領域から.tar.bz2パッケージのソースコードをダウンロードするか、Subversionで表示できます。

svn checkout svn://svn.code.sf.net/p/pdfsandwich/code/trunk/src pdfsandwich

OCamlがシステムにインストールされている場合は、次のようにコンパイルしてインストールできます。

cd pdfsandwich
./configure
make
sudo make install

今走ることができます。

sandwich multipaged-non-searchable.pdf

検索可能なPDFを生成します。

ここpdfsandwichを含むリポジトリ(Debian Stable、AUR、Homebrewなど)のリスト。

答え3

Ubuntuで利用できる簡単なツールは、PDFを生成し、元の文書にOCRテキストを重ねることができる「ocrfeeder」です。 Tesseractや他のOCRエンジン(どんなものかわからない)を使用し、画像の回転/「ペーパー解除」などを提供します。

答え4

私も同じ問題があり、週末にこの記事を書きました。一度試してみてください。素晴らしい作品!シンプルなパッケージですtesseractpdftoppmPDFをTIFFファイルの束に変換し、tesseractOCR(光学文字認識)を実行し、検索可能なPDFを出力として生成するために使用されます。スクリプトが完了すると、すべての中間一時ファイルが自動的に削除されます。

ソースコード:https://github.com/ElectricRCAaircraftGuy/PDF2SearchablePDF

インストールおよび使用説明書pdf2searchablepdf:

テスト対象Ubuntu18.042019年11月11日以降Ubuntu 20.042020年11月。

取付ける:

git clone https://github.com/ElectricRCAircraftGuy/PDF2SearchablePDF.git
./PDF2SearchablePDF/install.sh

sudo apt update
sudo apt install tesseract-ocr

使用:

# General:
pdf2searchablepdf [options] <input.pdf|dir_of_imgs> [lang]

# Make a PDF searchable:
pdf2searchablepdf mypdf.pdf

# Make an entire directory of images into a single searchable PDF:
pdf2searchablepdf directory_of_imgs

これで、次のファイルが作成されます。mypdf_searchable.pdf、検索可能なテキストが含まれています!

完璧。現在完全にbashで書かれているので、Pythonの依存関係はありません。

pdf2searchablepdf -hその他のオプションと例については、リソースヘルプメニューを参照してください。

参考資料または関連資料:

  1. PDF2 検索可能な PDF:https://github.com/ElectricRCAaircraftGuy/PDF2SearchablePDF
  2. https://askubuntu.com/questions/473843/how-to-turn-a-pdf-into-a-text-searchable-pdf/1187881#1187881
  3. https://askubuntu.com/questions/16268/whats-the-best-simplest-ocr-solution
  4. https://askubuntu.com/questions/150100/extracting-embedded-images-from-a-pdf/1187844#1187844
  5. PDFサンドイッチ:今見つけた代替ソフトウェアラッパーも試してみる価値があります!http://www.tobias-elze.de/pdfsandwich/

関連情報