PDFからhocrファイルを抽出するには？

2024-5-13 • tag-icon

以下からOCR編集PDFを作成していますtesseract。

tesseract input.tif out pdf

hocrしかし、ファイルも必要ですtxt。最新バージョンtesseract すでにこの問題を解決しました。しかし、コンパイルが必要leptonicaで、同時にtesseract、あまり満足できません。

テキストファイルを抽出するために使用できますが、PDFから抽出する方法がpdftotext見つからないようです。hocr

次のコマンドを実行して、pdfとhocrの両方を作成できます。

tesseract input.tif out pdf hocr

関連情報