Debian Buster：TesseractはURLをパラメータとしてサポートしません。

2024-6-5 • tag-icon

Debian Buster：TesseractはURLをパラメータとしてサポートしません。

ホストされた画像のテキストを解析しようとしていますが、Tesseractを誤って設定したようです。私はDebian Busterを使用しておりtesseract-ocr、libtesseract-devRubyラッパーがインストールされています。

#  $ tesseract -v
tesseract 4.0.0
 leptonica-1.76.0
  libgif 5.1.4 : libjpeg 6b (libjpeg-turbo 1.5.2) : libpng 1.6.36 : libtiff 4.1.0 : zlib 1.2.11 : libwebp 0.6.1 : libopenjp2 2.3.0
 Found AVX2
 Found AVX
 Found SSE

端末内でtesseract <URL.png> output返されますError, cannot read input <URL.png>: No such file or directory。 Ruby gemを使用すると、同じエラーメッセージが表示されます。

パッケージをインストールした後、何かを見逃しましたか？これ文書Ubuntuにtranseddataディレクトリを手動で配置することについて言えば、Debianでも行う必要がありますか？

現在のトレーニングデータはスナップパッケージには付属しておらず、~/snap/tesseract/currentに手動で配置する必要があります。

curlローカルパスをパラメータとして使用することは可能ですが、URLをパラメータとしてサポートする必要があります。

ありがとう

編集する

私はv4.1.1とv5.0.0を通してテストしました。これらtessdata ディレクトリを記述し設定します。どちらも明示的にサポートされていないURLを返します。

Tesseract Open Source OCR Engine v5.0.0-alpha-647-g4a00 with Leptonica
Error, this tesseract has no URL support
Error during processing.

確かに何かを見逃しているからリリースノート4.1.1からURLをサポートすると言われています。

関連情報