PDFファイルをOCRしてPDFに保存されているテキストをインポートする方法は？

Question 1

ocrmypdfうまく行われており、次のように使用できます。

ocrmypdf in.pdf out.pdf

取付ける:

pip install ocrmypdf

または

sudo apt install ocrmypdf     # ubuntu
sudo dnf -y install ocrmypdf  # fedora

Answer

ocrmypdfうまく行われており、次のように使用できます。

ocrmypdf in.pdf out.pdf

取付ける:

pip install ocrmypdf

または

sudo apt install ocrmypdf     # ubuntu
sudo dnf -y install ocrmypdf  # fedora

Question 2

学習後ハイパーキューブこれで、検索可能なPDFを生成することも可能です。スクリプトサンドイッチを見つけました。http://www.tobias-elze.de/pdfsandwich/

依存関係をインストールした後（完全なリストではない可能性があります）

sudo dnf install svn ocaml unpaper tesseract

スクリプトガイドに従ってソースからコンパイルしました。

ソースコードからコンパイル

pdfsandwichはオープンソースソフトウェアです（ライセンス：GPL）。プロジェクトのWebサイトのダウンロード領域から.tar.bz2パッケージのソースコードをダウンロードするか、Subversionで表示できます。

svn checkout svn://svn.code.sf.net/p/pdfsandwich/code/trunk/src pdfsandwich

OCamlがシステムにインストールされている場合は、次のようにコンパイルしてインストールできます。

cd pdfsandwich
./configure
make
sudo make install

今走ることができます。

sandwich multipaged-non-searchable.pdf

検索可能なPDFを生成します。

ここpdfsandwichを含むリポジトリ（Debian Stable、AUR、Homebrewなど）のリスト。

Answer

学習後ハイパーキューブこれで、検索可能なPDFを生成することも可能です。スクリプトサンドイッチを見つけました。http://www.tobias-elze.de/pdfsandwich/

依存関係をインストールした後（完全なリストではない可能性があります）

sudo dnf install svn ocaml unpaper tesseract

スクリプトガイドに従ってソースからコンパイルしました。

ソースコードからコンパイル

pdfsandwichはオープンソースソフトウェアです（ライセンス：GPL）。プロジェクトのWebサイトのダウンロード領域から.tar.bz2パッケージのソースコードをダウンロードするか、Subversionで表示できます。

svn checkout svn://svn.code.sf.net/p/pdfsandwich/code/trunk/src pdfsandwich

OCamlがシステムにインストールされている場合は、次のようにコンパイルしてインストールできます。

cd pdfsandwich
./configure
make
sudo make install

今走ることができます。

sandwich multipaged-non-searchable.pdf

検索可能なPDFを生成します。

ここpdfsandwichを含むリポジトリ（Debian Stable、AUR、Homebrewなど）のリスト。

Question 3

Ubuntuで利用できる簡単なツールは、PDFを生成し、元の文書にOCRテキストを重ねることができる「ocrfeeder」です。 Tesseractや他のOCRエンジン（どんなものかわからない）を使用し、画像の回転/「ペーパー解除」などを提供します。

Answer

Ubuntuで利用できる簡単なツールは、PDFを生成し、元の文書にOCRテキストを重ねることができる「ocrfeeder」です。 Tesseractや他のOCRエンジン（どんなものかわからない）を使用し、画像の回転/「ペーパー解除」などを提供します。

Question 4

私も同じ問題があり、週末にこの記事を書きました。一度試してみてください。素晴らしい作品！シンプルなパッケージですtesseract。pdftoppmPDFをTIFFファイルの束に変換し、tesseractOCR（光学文字認識）を実行し、検索可能なPDFを出力として生成するために使用されます。スクリプトが完了すると、すべての中間一時ファイルが自動的に削除されます。

ソースコード：https://github.com/ElectricRCAaircraftGuy/PDF2SearchablePDF

インストールおよび使用説明書`pdf2searchablepdf`:

テスト対象Ubuntu18.042019年11月11日以降Ubuntu 20.042020年11月。

取付ける:

git clone https://github.com/ElectricRCAircraftGuy/PDF2SearchablePDF.git
./PDF2SearchablePDF/install.sh

sudo apt update
sudo apt install tesseract-ocr

使用：

# General:
pdf2searchablepdf [options] <input.pdf|dir_of_imgs> [lang]

# Make a PDF searchable:
pdf2searchablepdf mypdf.pdf

# Make an entire directory of images into a single searchable PDF:
pdf2searchablepdf directory_of_imgs

これで、次のファイルが作成されます。mypdf_searchable.pdf、検索可能なテキストが含まれています！

完璧。現在完全にbashで書かれているので、Pythonの依存関係はありません。

pdf2searchablepdf -hその他のオプションと例については、リソースヘルプメニューを参照してください。

参考資料または関連資料：

PDF2 検索可能な PDF:https://github.com/ElectricRCAaircraftGuy/PDF2SearchablePDF
https://askubuntu.com/questions/473843/how-to-turn-a-pdf-into-a-text-searchable-pdf/1187881#1187881
https://askubuntu.com/questions/16268/whats-the-best-simplest-ocr-solution
https://askubuntu.com/questions/150100/extracting-embedded-images-from-a-pdf/1187844#1187844
PDFサンドイッチ：今見つけた代替ソフトウェアラッパーも試してみる価値があります！http://www.tobias-elze.de/pdfsandwich/

Answer

私も同じ問題があり、週末にこの記事を書きました。一度試してみてください。素晴らしい作品！シンプルなパッケージですtesseract。pdftoppmPDFをTIFFファイルの束に変換し、tesseractOCR（光学文字認識）を実行し、検索可能なPDFを出力として生成するために使用されます。スクリプトが完了すると、すべての中間一時ファイルが自動的に削除されます。

ソースコード：https://github.com/ElectricRCAaircraftGuy/PDF2SearchablePDF

インストールおよび使用説明書`pdf2searchablepdf`:

テスト対象Ubuntu18.042019年11月11日以降Ubuntu 20.042020年11月。

取付ける:

git clone https://github.com/ElectricRCAircraftGuy/PDF2SearchablePDF.git
./PDF2SearchablePDF/install.sh

sudo apt update
sudo apt install tesseract-ocr

使用：

# General:
pdf2searchablepdf [options] <input.pdf|dir_of_imgs> [lang]

# Make a PDF searchable:
pdf2searchablepdf mypdf.pdf

# Make an entire directory of images into a single searchable PDF:
pdf2searchablepdf directory_of_imgs

これで、次のファイルが作成されます。mypdf_searchable.pdf、検索可能なテキストが含まれています！

完璧。現在完全にbashで書かれているので、Pythonの依存関係はありません。

pdf2searchablepdf -hその他のオプションと例については、リソースヘルプメニューを参照してください。

参考資料または関連資料：

PDF2 検索可能な PDF:https://github.com/ElectricRCAaircraftGuy/PDF2SearchablePDF
https://askubuntu.com/questions/473843/how-to-turn-a-pdf-into-a-text-searchable-pdf/1187881#1187881
https://askubuntu.com/questions/16268/whats-the-best-simplest-ocr-solution
https://askubuntu.com/questions/150100/extracting-embedded-images-from-a-pdf/1187844#1187844
PDFサンドイッチ：今見つけた代替ソフトウェアラッパーも試してみる価値があります！http://www.tobias-elze.de/pdfsandwich/

PDFファイルをOCRしてPDFに保存されているテキストをインポートする方法は？

答え1

答え2

答え3

答え4

インストールおよび使用説明書`pdf2searchablepdf`:

取付ける:

使用：

参考資料または関連資料：

関連情報

答え1

答え2

答え3

答え4

インストールおよび使用説明書pdf2searchablepdf:

取付ける:

使用：

参考資料または関連資料：

関連情報

インストールおよび使用説明書`pdf2searchablepdf`: