LinuxシステムのOCR [閉じる]

Question 1

ハイパーキューブ

2020年現在、最高のオープンソースOCRソフトウェアはハイパーキューブ4その新しいLSTMニューラルネットワークOCRモデル。 OCRのパフォーマンスは、バージョン3で使用されていた以前のOCRモデルよりはるかに優れています。

はい（output.pdfスキャンしたドイツ語文書からテキストレイヤーを含むPDFファイルを作成する）：

$ echo page-*.png > input.list
$ tesseract --oem 1 -l deu input.list output pdf

（--oem 1LSTMエンジンを有効にする）

認識されたテキストを標準出力として印刷します。

$ tesseract --oem 1 -l deu page page-0001.png stdout

インストールされた言語のリスト：

$ tesseract --list-langs

ダウンロード可能な形式でさまざまな言語/スクリプトサポートを提供トレーニングデータセットたとえば、Frakturのデータセットもあります。

新しいLSTMモデルにより、Tesseractはオクロフォース発明プロジェクト。

高品質の入力画像でも、Tesseractバージョン3のパフォーマンスは比較的低いです。つまり、ほこりピクセル（テキストコンテキストの外側）で単一の文字を誤って検出することがよく、よく知られている単語に単一の文字を簡単に導入します。

楔形文字

楔形文字OCRのパフォーマンスはあまり悪くありませんが、積極的に維持されておらず（最終リリース：2011、バージョン1.1）、簡単にクラッシュし、いくつかの異なる問題があります。

セグメンテーションエラーそして様々なパッケージそして解放する
レイアウトアルゴリズムは単に破損しています。つまり、文書列内で段落がランダムに混在することがよくあります。
不明なオプションが原因でエラーは発生しません。

次のようにレイアウトアルゴリズムを無効にできます。

$ cuneiform --singlecolumn -l ger -f text -o foo.txt image-0001

（-l元の文書の言語を指定してください）

オクラッド

オクラッド呼び出しの例：

$ ocrad -F utf8 image-0001

テキストはデフォルトで標準出力として印刷されます。

ビジネス文書では、cuneiform/tesseract/gocrにはない下線付きの単語がありません。

Ocrad マニュアルには次の情報が含まれています。使用されるアルゴリズム、例えば：

5）文字を検出し、行ごとにグループ化します。
6）文字を識別します（非常に一時的な、1文字あたり1つのアルゴリズム）。
7）いくつかのあいまいさを修正します（l.OOOを1.000に変換するなど）。

GOCR

GOCR呼び出しの例：

$ gocr image-0001

テキストはデフォルトで標準出力として印刷されます。

GOCR文書には、OCRで使用されるモデル/方法の詳細は含まれていません。

ハードウェア

精神以下の一部の自動文書フィード（ADF）スキャナーのサポートに優れています。ビジョンそして富士通それら。

Saneには、スクリプト化されscanimageたスキャンパイプラインを構築するために使用できるコマンドラインプログラムが含まれています（例：myadf2pdf.pyスクリプト）。

Answer

ハイパーキューブ

2020年現在、最高のオープンソースOCRソフトウェアはハイパーキューブ4その新しいLSTMニューラルネットワークOCRモデル。 OCRのパフォーマンスは、バージョン3で使用されていた以前のOCRモデルよりはるかに優れています。

はい（output.pdfスキャンしたドイツ語文書からテキストレイヤーを含むPDFファイルを作成する）：

$ echo page-*.png > input.list
$ tesseract --oem 1 -l deu input.list output pdf

（--oem 1LSTMエンジンを有効にする）

認識されたテキストを標準出力として印刷します。

$ tesseract --oem 1 -l deu page page-0001.png stdout

インストールされた言語のリスト：

$ tesseract --list-langs

ダウンロード可能な形式でさまざまな言語/スクリプトサポートを提供トレーニングデータセットたとえば、Frakturのデータセットもあります。

新しいLSTMモデルにより、Tesseractはオクロフォース発明プロジェクト。

高品質の入力画像でも、Tesseractバージョン3のパフォーマンスは比較的低いです。つまり、ほこりピクセル（テキストコンテキストの外側）で単一の文字を誤って検出することがよく、よく知られている単語に単一の文字を簡単に導入します。

楔形文字

楔形文字OCRのパフォーマンスはあまり悪くありませんが、積極的に維持されておらず（最終リリース：2011、バージョン1.1）、簡単にクラッシュし、いくつかの異なる問題があります。

セグメンテーションエラーそして様々なパッケージそして解放する
レイアウトアルゴリズムは単に破損しています。つまり、文書列内で段落がランダムに混在することがよくあります。
不明なオプションが原因でエラーは発生しません。

次のようにレイアウトアルゴリズムを無効にできます。

$ cuneiform --singlecolumn -l ger -f text -o foo.txt image-0001

（-l元の文書の言語を指定してください）

オクラッド

オクラッド呼び出しの例：

$ ocrad -F utf8 image-0001

テキストはデフォルトで標準出力として印刷されます。

ビジネス文書では、cuneiform/tesseract/gocrにはない下線付きの単語がありません。

Ocrad マニュアルには次の情報が含まれています。使用されるアルゴリズム、例えば：

5）文字を検出し、行ごとにグループ化します。
6）文字を識別します（非常に一時的な、1文字あたり1つのアルゴリズム）。
7）いくつかのあいまいさを修正します（l.OOOを1.000に変換するなど）。

GOCR

GOCR呼び出しの例：

$ gocr image-0001

テキストはデフォルトで標準出力として印刷されます。

GOCR文書には、OCRで使用されるモデル/方法の詳細は含まれていません。

ハードウェア

精神以下の一部の自動文書フィード（ADF）スキャナーのサポートに優れています。ビジョンそして富士通それら。

Saneには、スクリプト化されscanimageたスキャンパイプラインを構築するために使用できるコマンドラインプログラムが含まれています（例：myadf2pdf.pyスクリプト）。

Question 2

私が一つ見つけたStackOverflowにも同様の質問があります。そしてアスプライズOCR SDK、リンクのいずれか広告製品にはLinuxバージョンがあります。

Answer

私が一つ見つけたStackOverflowにも同様の質問があります。そしてアスプライズOCR SDK、リンクのいずれか広告製品にはLinuxバージョンがあります。

Question 3

... OCRは単なる「文字認識」以上です。画像処理、前処理 - ページ/レイアウト分析でテキスト、画像、表、バーコードを検索します。認識するには、さまざまなフォント、サイズ、言語をカバーする必要があります。良い結果を得るには、辞書と言語定義を使用する必要があるため、これは重要です。最後に、人々は単純なテキスト（XML、RTF、または検索可能なPDFなど）よりも多くのエクスポートオプションを期待しています。 SDKにはいくつかの商用オプションがありますが、手頃な価格または無料ではありません。

最近私はLinux用ABBYY CLI OCR。 100ページの無料試用版があります。

Answer

... OCRは単なる「文字認識」以上です。画像処理、前処理 - ページ/レイアウト分析でテキスト、画像、表、バーコードを検索します。認識するには、さまざまなフォント、サイズ、言語をカバーする必要があります。良い結果を得るには、辞書と言語定義を使用する必要があるため、これは重要です。最後に、人々は単純なテキスト（XML、RTF、または検索可能なPDFなど）よりも多くのエクスポートオプションを期待しています。 SDKにはいくつかの商用オプションがありますが、手頃な価格または無料ではありません。

最近私はLinux用ABBYY CLI OCR。 100ページの無料試用版があります。

Question 4

予算が足りるなら積極的におすすめLinux用ABBYY FineReaderエンジンCLI。当社は1年間Webアプリケーションで使用してきました。ライセンスを更新する予定です。非常に優れた認識品質、コマンドラインインターフェイス、多言語認識。

Answer

予算が足りるなら積極的におすすめLinux用ABBYY FineReaderエンジンCLI。当社は1年間Webアプリケーションで使用してきました。ライセンスを更新する予定です。非常に優れた認識品質、コマンドラインインターフェイス、多言語認識。

LinuxシステムのOCR [閉じる]

答え1

ハイパーキューブ

楔形文字

オクラッド

GOCR

ハードウェア

答え2

答え3

答え4

関連情報