PDFファイルとOCRedテキストのhocr形式のhtmlファイルが与えられたら、新しいpdfファイルがテキストを検索できるようにOCRedテキストをpdfファイルにマージできますか?
たとえば、検索可能なテキストがない約5MBのスキャンPDFがあります。私はそれをdjvuファイルに変換し、単一ページのtiffファイルに分割し、.tiffファイルを使用してページの一部のhocrファイルをtiffファイルとマージしました
pdfbeads
。今私の新しいPDFファイルは23MBです。だから、hocrファイルを元のPDFファイルに直接マージして、23MBよりはるかに小さいサイズを得ることができるかどうか疑問に思います。逆に、OCRテキストを含むPDFファイルがある場合は、OCRテキストをhocr形式のhtmlファイルにエクスポートできますか?
PDFファイルとして印刷せずにPDFファイルからOCRされたテキストを削除することもできますか?
hocr形式に限定されない場合、上記のマージおよび/または抽出を実行する手順を含む他の形式はありますか?
ありがとうございます。
答え1
- おそらくそうです。 Hocr2pdfツール(ExactImage)を使用できますが、確認しようとしませんでした。
注:検索可能なPDFを作成したい場合は、gscan2pdfなどのPDF入力を可能にするより簡単なGUIプログラムを使用できます。最新バージョンのtesseractを使用して検索可能なPDFを作成することもできます。
- htmlファイルではxpdfツールキットのpdf2htmlエクスポートを使用できますが、結果はあまり満足していませんが、hocr形式ではありません。
最後の質問についてはよくわかりません。ただし、テキストがOCR処理されている場合は、間違いなく簡単に削除できます。参考までに、djvudigitalを使用してpdfからHQ djvuを作成すると、djvusedを使用してdjvulibreからテキストを簡単に削除できます。
PDFファイルの編集に適したLibreDrawに言及するのを忘れました。これはOCRed PDFを持っていないので、それが何を提供するのかわかりませんが、試してみる価値があります。