tesseract

고해상도 이미지를 OCR하고 나중에 이미지 압축 후 OCR 데이터를 병합하시겠습니까?
tesseract

고해상도 이미지를 OCR하고 나중에 이미지 압축 후 OCR 데이터를 병합하시겠습니까?

ScanTailor의 .tif 파일이 많이 있습니다. tesseract를 사용하여 해당 .tif를 OCR하여 이미지에서 OCR 데이터를 분리할 수 있는 방법이 있습니까? 그런 다음 이미지를 압축하고 마지막으로 OCR 데이터를 압축된 이미지와 결합하시겠습니까? 요점은 OCR 이전에 압축하고 싶지 않으며 나중에 PDF를 압축하고 OCR을 보존할 수 있는 좋은 도구가 없다는 것입니다. ...

Admin

色の背景に入力されたテキストを認識するための最高のコマンドラインOCRソフトウェア
tesseract

色の背景に入力されたテキストを認識するための最高のコマンドラインOCRソフトウェア

次の画像からテキストを抽出する必要があります。 ご覧のとおり、テキストは手書きのものではなく、入力したものです。しかも背景も華やかだ。 Tesseract OCRを試してみましたが、時々動作しましたが、特定の入力ではひどく失敗しました。上記の例では、「Due CoN aicomrBi em Cela RTL」を生成します。 どのコマンドラインOCRソフトウェアをお勧めしますか? Tesseractが最良の選択であれば、Tesseractのキャラクターをより簡単に識別できるようにこれらの画像を変換できますか? 編集するconvert -threshold 5...

Admin

Tesseractはプロセスの交換を許可しません。
tesseract

Tesseractはプロセスの交換を許可しません。

tesseractクリップボードの画像にOCRツール(OCRツール)を使用してテキストに変換して出力するクイックスクリプトを作成しています。次のようになります。 #!/bin/sh temp="$(mktemp tmpXXX.png)" xclip -selection clipboard -t image/png -o > $temp tesseract $temp stdout 2>/dev/null rm $temp tesseract <(xclip -selection clipboard -t image/png -o) s...

Admin

ファイルマネージャのコンテキストメニューのtesseractスクリプトの作成
tesseract

ファイルマネージャのコンテキストメニューのtesseractスクリプトの作成

ファイルマネージャのコンテキストメニュースクリプトは、時々GUIユーティリティを使用するよりも速く実行できます。したがって、初歩的なスクリプト技術にもかかわらず、私は長い間Dolphin、Nautilus、およびNemoファイルマネージャで数十のシンプルで複雑なスクリプトを使用してきました。しかし、今回は、選択した画像ファイルにOCRを使用する非常に単純なループに閉じ込められています。正八砲体存在するイルカ、他の多くのスクリプトで動作します。 for filename in "${@}"; do tesseract -l eng "$filename...

Admin

文字認識にtesseractを使用すると、結果が予想とは異なります(より悪い)。良い方法は何ですか?
tesseract

文字認識にtesseractを使用すると、結果が予想とは異なります(より悪い)。良い方法は何ですか?

私の質問にLinuxブートの出力を追加し、光学文字認識を試みることにしました。 2022年には間違いなくまともなオープンソースオプションが必要だと思いました(長い間OCRを試みませんでした)。 「良いレビュー」のウェブ検索で見つけたリンクですtesseract。https://www.linuxlinks.com/ocrtools/チャートで2番目に良いです。https://askubuntu.com/questions/16268/whats-the-best-simplest-ocr-solution Tesseractはおそらく最も正確なオープンソー...

Admin

OCR手書きの(英語ではない)テキストを手動でOCR /学習することができるソフトウェアはありますか?
tesseract

OCR手書きの(英語ではない)テキストを手動でOCR /学習することができるソフトウェアはありますか?

Tesseract / Abbyy Finereaderなどが解決できない問題に直面しました。たとえば、手書きのロシア語を認識できませんでした。だから検索 この種のOCRソフトウェア または、PDFメソッドを手動でOCRします(レイヤーの作成、四角形の描画、手動でテキストの塗りつぶし)。 一部の手動操作の後、OCRエンジンをローカルで学習して自動化することもできます。 ...

Admin

端末のテキストをさまざまなテキスト形式で保存する方法は?
tesseract

端末のテキストをさまざまなテキスト形式で保存する方法は?

私はOCRソフトウェアを使用していますが、特にtesseractを使用するのに時間を費やしました。 Linux端末に画像をロードし、tesseractが画像からテキストを抽出できるようになりました。今、引き裂かれたテキストを端末でpdf、odf、txt、およびword形式で自動的に保存する方法を理解しようとしています。 ...

Admin

RHELからオフラインでtesseractをインストールする
tesseract

RHELからオフラインでtesseractをインストールする

RHELベースのサーバーがありますが、インターネットに接続できません。このサーバーにTesseract> 4.0をインストールする必要があります。だから私が選択した方法は、他の場所からRPMパッケージをダウンロードしてサーバーに移動し、コマンドを使用してインストールすることrpmでした。私(https://build.opensuse.org/project/show/home:Alexander_Pozdnyakov)公式tesseractドキュメントからRPMをダウンロードします。 問題は、これらのRPMをインストールしようとすると他の依存関係が多...

Admin

Debian Buster:TesseractはURLをパラメータとしてサポートしません。
tesseract

Debian Buster:TesseractはURLをパラメータとしてサポートしません。

ホストされた画像のテキストを解析しようとしていますが、Tesseractを誤って設定したようです。私はDebian Busterを使用しておりtesseract-ocr、libtesseract-devRubyラッパーがインストールされています。 # $ tesseract -v tesseract 4.0.0 leptonica-1.76.0 libgif 5.1.4 : libjpeg 6b (libjpeg-turbo 1.5.2) : libpng 1.6.36 : libtiff 4.1.0 : zlib 1.2.11 : libwebp...

Admin

質問
tesseract

質問

質問 pytesseract.image_to_string()Supervisorddを介してスクリプトを実行すると時間がかかりすぎますが、シェルで直接実行すると(同じサーバー上のスーパーバイザスクリプトと同時に)ほぼすぐに実行されます。 時間がかかりすぎるだけでなく、これらのプロセスはCPU使用率も高くなります。 pytesseract.image_to_string()Supervisordで実行するのに必要な時間:〜30秒 Bashを介して実行するのに 必要な時間pytesseract.image_to_string():0.1秒 pyte...

Admin

Leptonica コンパイルエラー
tesseract

Leptonica コンパイルエラー

Ubuntu 16にleptonica v1.78をインストールしようとしましたが、何らかの理由で動作しません。実行./configure後、make次のエラーが発生し続けます。 make[2]: Entering directory '/home/user/Documents/leptonica/leptonica-1.78.0/prog' CC convertfilestopdf.o CCLD convertfilestopdf ../src/.libs/liblept.so: undefined reference to ...

Admin

tesseract:OCRed PDFでフォント出力を変更できますか?
tesseract

tesseract:OCRed PDFでフォント出力を変更できますか?

フォローアップPDFファイルをOCRしてPDFに保存されたテキストを取得するには?OCRed pdfページが正常に作成されました。 しかし、Evinceではこれらの文字は表示されません。つまり、文字を見ることはできませんが、文字を選択してコピーして他の場所に正常に貼り付けることができます。これはEvinceのせいではないようです。https://bugzilla.redhat.com/show_bug.cgi?id=1364201 pdfsandwichを使用してPDFページのOCRを開始すると、tesseractはページを生成します。 使用可能...

Admin

Debian 6 64ビットのTesseractバイナリはどこで入手できますか?
tesseract

Debian 6 64ビットのTesseractバイナリはどこで入手できますか?

apt-getを使ってTesseractをインストールしましたが、実際には動作しませんでした。どこかでバイナリをダウンロードしてディレクトリに入れて、そのように使用できますか? 今私のTesseractに何の問題がありますか? tesseract --help tesseract:Error:Usage:tesseract imagename outputbase [-l lang] [configfile [[+|-]varfile]...] そして tesseract test.tif out2.txt -l pol Unable to loa...

Admin

キーバインディングで実行されたスクリプトはファイルに書き込まれません。
tesseract

キーバインディングで実行されたスクリプトはファイルに書き込まれません。

次のbashスクリプトは、イメージファイルのテキストを解釈して.txtファイルに書き込みます。 #!/usr/bin/env bash LD_LIBRARY_PATH="/usr/local/lib" export LD_LIBRARY_PATH /usr/local/bin/tesseract /home/martin/work/textpic.png /home/martin/work/tesseract-out 端末で実行するとtesseract-out.txtが生成されますが、カスタムキーボードショートカットを介して実行すると何も記録されま...

Admin