ocr

OCRを使用して、正しくスキャンされていないパブリックドメインの書籍を読みやすくします。
ocr

OCRを使用して、正しくスキャンされていないパブリックドメインの書籍を読みやすくします。

とても古い公開書籍のソフトコピーを手に入れました。 絵は十分に鮮明ですが、テキストは少しぼやけています。 私はTesseract OCRを試してみましたが、いくつかのエラーがある驚くべき数の単語を認識しましたが、別のファイルに混乱していました。 質問: Tesseractやその他のOCRでテキストを認識してから、線や図などの他の要素を変更せずに、ぼやけたテキストの上に配置する方法はありますか? そして、これが可能であれば、Tesseractや他のOCRに元のテキストの異なるサイズ、フォント、色を模倣させることも可能でしょうか? ありがとうございます!...

Admin

고해상도 이미지를 OCR하고 나중에 이미지 압축 후 OCR 데이터를 병합하시겠습니까?
ocr

고해상도 이미지를 OCR하고 나중에 이미지 압축 후 OCR 데이터를 병합하시겠습니까?

ScanTailor의 .tif 파일이 많이 있습니다. tesseract를 사용하여 해당 .tif를 OCR하여 이미지에서 OCR 데이터를 분리할 수 있는 방법이 있습니까? 그런 다음 이미지를 압축하고 마지막으로 OCR 데이터를 압축된 이미지와 결합하시겠습니까? 요점은 OCR 이전에 압축하고 싶지 않으며 나중에 PDF를 압축하고 OCR을 보존할 수 있는 좋은 도구가 없다는 것입니다. ...

Admin

ocr bashスクリプトを使用してスキャンする方法
ocr

ocr bashスクリプトを使用してスキャンする方法

スキャンプロセスを簡素化するために、OCRを1ステップでスキャンして適用できるスクリプトを作成します。しかし、私のbash技術は非常に悪いので、助けてくれて本当にありがとう。私の試みは次のとおりです。 #!/bin/bash mydate="$(date +"%Y%m%d-%H%M%S")" image="$(scanimage --device "brother4:net1;dev0" --progress --verbose --resolution=600 -l 0 -t 0 -x 210 -y 297 --format=pdf)" ocrmypdf...

Admin

Linux用MacOSのようなOCR?
ocr

Linux用MacOSのようなOCR?

Linuxでテキストをコピーする方法と同様に、Linuxで同じようにユビキタスOCR機能を設定する方法すべての画像存在するすべてのソフトウェアMacOSとiOSでは? 私はGnome DEでEndevourOSを使用しています。 ...

Admin

端末で(`ocrmypdf`)コマンドを実行し、出力名に入力名を含めます.
ocr

端末で(`ocrmypdf`)コマンドを実行し、出力名に入力名を含めます.

PDF処理のための他の多くのコマンドを含むDolphinサービスメニューファイルには、次の行があります。 Exec=bash -c 'f="%u"; ocrmypdf "$f" "${f%.pdf}_ocr.pdf";' MY_PDF_ocr.pdf入力ファイルの名前を保持する形式で出力ファイルを提供するという利点があります。しかし、私はkonsoleプロセスを見るために端末()でコマンドを実行することを好みます。 これを行うには、次の行を使用できます。 Exec=konsole --noclose -e ocrmypdf "%u" ocr_en.pdf ...

Admin

色の背景に入力されたテキストを認識するための最高のコマンドラインOCRソフトウェア
ocr

色の背景に入力されたテキストを認識するための最高のコマンドラインOCRソフトウェア

次の画像からテキストを抽出する必要があります。 ご覧のとおり、テキストは手書きのものではなく、入力したものです。しかも背景も華やかだ。 Tesseract OCRを試してみましたが、時々動作しましたが、特定の入力ではひどく失敗しました。上記の例では、「Due CoN aicomrBi em Cela RTL」を生成します。 どのコマンドラインOCRソフトウェアをお勧めしますか? Tesseractが最良の選択であれば、Tesseractのキャラクターをより簡単に識別できるようにこれらの画像を変換できますか? 編集するconvert -threshold 5...

Admin

OCR処理のためにテキスト形式を指定する方法は?
ocr

OCR処理のためにテキスト形式を指定する方法は?

(1)、(2)、(3)、(4)、(5) で始まる引用文で中断されたすべての段落を連結したいとしましょう。 Bashでこれをどのように表現/自動化できますか? 1ページに最大5つの引用が可能なので、1、1-2、1-2-3、1-2-3-4、1-2-の組み合わせをすべて覚えておく必要があることに注意してください。 3-4-5. 例: 新しい原則を照合するために、常にすべての賃金と一緒に使用されます。世界で最も美しいものLeur réunion。人民大衆は確かに主権者であり、州であり、最高の支配者です。これは世界中の雄大な住居です(1)。独立の永住に対する王子の尊...

Admin

OCRの既存のテキストレイヤーを維持しながら、スキャンしたPDFファイルの色を変換し、スキャン解像度を減らしてメモリを節約できますか?
ocr

OCRの既存のテキストレイヤーを維持しながら、スキャンしたPDFファイルの色を変換し、スキャン解像度を減らしてメモリを節約できますか?

ずっと前にスキャンされ、すでに検索可能な(つまりOCR処理されている)PDFファイルがたくさんあります。 ただし、照明レベルとコントラスト設定は最適ではありません。 既存のファイルのピクセルあたりのビット数を合理的に低いレベルに減らすことは可能ですか?保存スペースを節約するために(Gimpや他の画像操作プログラムと同様に、カラーカーブ変換、トーン分離、または白黒へのバイナリ化)? ファイルは600dpiでスキャンされ、すでに検索可能です。つまり、スキャンした画像に加えてテキストレイヤーがあります。より良いOCR結果を得るために、これらの高いスキャン解像度を選...

Admin

文字認識にtesseractを使用すると、結果が予想とは異なります(より悪い)。良い方法は何ですか?
ocr

文字認識にtesseractを使用すると、結果が予想とは異なります(より悪い)。良い方法は何ですか?

私の質問にLinuxブートの出力を追加し、光学文字認識を試みることにしました。 2022年には間違いなくまともなオープンソースオプションが必要だと思いました(長い間OCRを試みませんでした)。 「良いレビュー」のウェブ検索で見つけたリンクですtesseract。https://www.linuxlinks.com/ocrtools/チャートで2番目に良いです。https://askubuntu.com/questions/16268/whats-the-best-simplest-ocr-solution Tesseractはおそらく最も正確なオープンソー...

Admin

Awesome Window ManagerによるNormCap OCR
ocr

Awesome Window ManagerによるNormCap OCR

私が最近接した最もクールなプログラムの1つは、光学文字認識(OCR)プログラムです。仕様上限。私はそれをショートカットに囲み、強調不能なテキストをクリップボードにコピーしたいときはいつでも、ショートカットを使って対応する(以前は非協力的だった)テキストをつかみ、クリップボードにテキストとして入れることができます。克服せよ、この都合のないUIだ!これをテキスト画像に撮ってください! しかし、最近インストールしてみました。素晴らしい。その時点から、このAppImageは機能しなくなりました。完全にAwesomeをロックしたり、時には正常に動作しようとしましたが、...

Admin

OCR手書きの(英語ではない)テキストを手動でOCR /学習することができるソフトウェアはありますか?
ocr

OCR手書きの(英語ではない)テキストを手動でOCR /学習することができるソフトウェアはありますか?

Tesseract / Abbyy Finereaderなどが解決できない問題に直面しました。たとえば、手書きのロシア語を認識できませんでした。だから検索 この種のOCRソフトウェア または、PDFメソッドを手動でOCRします(レイヤーの作成、四角形の描画、手動でテキストの塗りつぶし)。 一部の手動操作の後、OCRエンジンをローカルで学習して自動化することもできます。 ...

Admin

出力PDFオプションを使用するときにTesseractへの複数の入力ファイルを指定する方法(コマンドラインで「並列」としてのみ機能)
ocr

出力PDFオプションを使用するときにTesseractへの複数の入力ファイルを指定する方法(コマンドラインで「並列」としてのみ機能)

ディレクトリ内のすべてのファイルをpdfにテサラクションしようとしています。 このコマンドはうまく動作します。 ls * | parallel -j 4 tesseract {} {.} pdf 各入力ファイルに対してPDFを生成します。 ただし、並列アプローチなしでは動作できません。 次のように入力すると: for i in * ; do tesseract $i $1 pdf; done; pdfファイルは生成されませんが、次のようなファイルが生成されます。pdf.txt 並列オプションを使用せずにフォルダの入力ファイルからPDFを作成する最良の方...

Admin

テキストなしでPDFを探す
ocr

テキストなしでPDFを探す

PDFが多く含まれるフォルダが多いのですが、テキストレイヤーのないフォルダを光学的に文字認識したいと思います。だから最初にそれらを探したいと思います。おそらくチューブがpdfgrepその役割を果たすと思いましたが、迷子になりました。 テキストなしでPDFを見つける方法は? ...

Admin

Cygwinのインストール後にocrmypdf実行可能ファイルはどこにありますか?
ocr

Cygwinのインストール後にocrmypdf実行可能ファイルはどこにありますか?

フォローするこのページOCRmyPDFCygwinにインストールされました。管理者以外のアカウントでこれを行ったため、プロセスが~/.local/必要なファイルを作成しました。ただし、次のコマンドは一致する実行ファイルを生成しませんocrmypdf。 $ find ~ /!(c|cygdrive) -name 'ocrmypdf*' # Nothing from Bash $ python3 >>> ocrmypdf --help # From Python Traceback (most recent call last): ...

Admin

質問
ocr

質問

質問 スキャンしてデジタル化したい古い本がたくさんあります。私はこれに評判のスキャナーを使用しましたが、うまくいきましxsaneたGImageReader。 数年前、まだWindowsでこんなことをしている時に使ってABBY Fine Reader満足していましたが、Linuxでは使えません。 今作成したPDFと以前に作成したPDFを比較すると、今日のファイルがはるかに大きいことがわかります。 ABBYを使用すると、ファイルサイズが10〜50MBの間の50〜60ページのPDFを取得できましたが、これは大丈夫だと思いました。最近、私のPDFファイルは50〜60...

Admin