ホストされた画像のテキストを解析しようとしていますが、Tesseractを誤って設定したようです。私はDebian Busterを使用しておりtesseract-ocr
、libtesseract-dev
Rubyラッパーがインストールされています。
# $ tesseract -v
tesseract 4.0.0
leptonica-1.76.0
libgif 5.1.4 : libjpeg 6b (libjpeg-turbo 1.5.2) : libpng 1.6.36 : libtiff 4.1.0 : zlib 1.2.11 : libwebp 0.6.1 : libopenjp2 2.3.0
Found AVX2
Found AVX
Found SSE
端末内でtesseract <URL.png> output
返されますError, cannot read input <URL.png>: No such file or directory
。 Ruby gemを使用すると、同じエラーメッセージが表示されます。
パッケージをインストールした後、何かを見逃しましたか?これ文書Ubuntuにtranseddataディレクトリを手動で配置することについて言えば、Debianでも行う必要がありますか?
現在のトレーニングデータはスナップパッケージには付属しておらず、~/snap/tesseract/currentに手動で配置する必要があります。
curl
ローカルパスをパラメータとして使用することは可能ですが、URLをパラメータとしてサポートする必要があります。
ありがとう
編集する
私はv4.1.1とv5.0.0を通してテストしました。これらtessdata ディレクトリを記述し設定します。どちらも明示的にサポートされていないURLを返します。
Tesseract Open Source OCR Engine v5.0.0-alpha-647-g4a00 with Leptonica
Error, this tesseract has no URL support
Error during processing.
確かに何かを見逃しているからリリースノート4.1.1からURLをサポートすると言われています。