![LinuxシステムのOCR [閉じる]](https://linux33.com/image/129/Linux%E3%82%B7%E3%82%B9%E3%83%86%E3%83%A0%E3%81%AEOCR%20%5B%E9%96%89%E3%81%98%E3%82%8B%5D.png)
ずっと探しています。光学文字認識技術オープンソースシステムに遅れています。私も見たことがあるオクロフォースプロジェクト幼児期から。私は私が聞いたLinux用のOCRエンジンの中で最高のOCRエンジンを試しました。ハイパーキューブ、ビジネス文書が非常に不足していることがわかりました。より有望な他のOCR実装はありますか?手書きを解釈するというより有望な目標はどうですか?この分野で*nixシステムで何が可能ですか?
答え1
ハイパーキューブ
2020年現在、最高のオープンソースOCRソフトウェアはハイパーキューブ4その新しいLSTMニューラルネットワークOCRモデル。 OCRのパフォーマンスは、バージョン3で使用されていた以前のOCRモデルよりはるかに優れています。
はい(output.pdf
スキャンしたドイツ語文書からテキストレイヤーを含むPDFファイルを作成する):
$ echo page-*.png > input.list
$ tesseract --oem 1 -l deu input.list output pdf
(--oem 1
LSTMエンジンを有効にする)
認識されたテキストを標準出力として印刷します。
$ tesseract --oem 1 -l deu page page-0001.png stdout
インストールされた言語のリスト:
$ tesseract --list-langs
ダウンロード可能な形式でさまざまな言語/スクリプトサポートを提供トレーニングデータセットたとえば、Frakturのデータセットもあります。
新しいLSTMモデルにより、Tesseractはオクロフォース発明プロジェクト。
高品質の入力画像でも、Tesseractバージョン3のパフォーマンスは比較的低いです。つまり、ほこりピクセル(テキストコンテキストの外側)で単一の文字を誤って検出することがよく、よく知られている単語に単一の文字を簡単に導入します。
楔形文字
楔形文字OCRのパフォーマンスはあまり悪くありませんが、積極的に維持されておらず(最終リリース:2011、バージョン1.1)、簡単にクラッシュし、いくつかの異なる問題があります。
- セグメンテーションエラーそして様々なパッケージそして解放する
- レイアウトアルゴリズムは単に破損しています。つまり、文書列内で段落がランダムに混在することがよくあります。
- 不明なオプションが原因でエラーは発生しません。
次のようにレイアウトアルゴリズムを無効にできます。
$ cuneiform --singlecolumn -l ger -f text -o foo.txt image-0001
(-l
元の文書の言語を指定してください)
オクラッド
オクラッド呼び出しの例:
$ ocrad -F utf8 image-0001
テキストはデフォルトで標準出力として印刷されます。
ビジネス文書では、cuneiform/tesseract/gocrにはない下線付きの単語がありません。
Ocrad マニュアルには次の情報が含まれています。使用されるアルゴリズム、例えば:
5)文字を検出し、行ごとにグループ化します。
6)文字を識別します(非常に一時的な、1文字あたり1つのアルゴリズム)。
7)いくつかのあいまいさを修正します(l.OOOを1.000に変換するなど)。
GOCR
GOCR呼び出しの例:
$ gocr image-0001
テキストはデフォルトで標準出力として印刷されます。
GOCR文書には、OCRで使用されるモデル/方法の詳細は含まれていません。
ハードウェア
精神以下の一部の自動文書フィード(ADF)スキャナーのサポートに優れています。ビジョンそして富士通それら。
Saneには、スクリプト化されscanimage
たスキャンパイプラインを構築するために使用できるコマンドラインプログラムが含まれています(例:myadf2pdf.py
スクリプト)。
答え2
私が一つ見つけたStackOverflowにも同様の質問があります。そしてアスプライズOCR SDK、リンクのいずれか広告製品にはLinuxバージョンがあります。
答え3
... OCRは単なる「文字認識」以上です。画像処理、前処理 - ページ/レイアウト分析でテキスト、画像、表、バーコードを検索します。認識するには、さまざまなフォント、サイズ、言語をカバーする必要があります。良い結果を得るには、辞書と言語定義を使用する必要があるため、これは重要です。最後に、人々は単純なテキスト(XML、RTF、または検索可能なPDFなど)よりも多くのエクスポートオプションを期待しています。 SDKにはいくつかの商用オプションがありますが、手頃な価格または無料ではありません。
最近私はLinux用ABBYY CLI OCR。 100ページの無料試用版があります。
答え4
予算が足りるなら積極的におすすめLinux用ABBYY FineReaderエンジンCLI。当社は1年間Webアプリケーションで使用してきました。ライセンスを更新する予定です。非常に優れた認識品質、コマンドラインインターフェイス、多言語認識。