以下からOCR編集PDFを作成していますtesseract
。
tesseract input.tif out pdf
hocr
しかし、ファイルも必要ですtxt
。最新バージョンtesseract
すでにこの問題を解決しました。しかし、コンパイルが必要leptonica
で、同時にtesseract
、あまり満足できません。
テキストファイルを抽出するために使用できますが、PDFから抽出する方法がpdftotext
見つからないようです。hocr
答え1
次のコマンドを実行して、pdfとhocrの両方を作成できます。
tesseract input.tif out pdf hocr