OCRを使用して、正しくスキャンされていないパブリックドメインの書籍を読みやすくします。

2024-6-11 • tag-icon

OCRを使用して、正しくスキャンされていないパブリックドメインの書籍を読みやすくします。

とても古い公開書籍のソフトコピーを手に入れました。

絵は十分に鮮明ですが、テキストは少しぼやけています。

私はTesseract OCRを試してみましたが、いくつかのエラーがある驚くべき数の単語を認識しましたが、別のファイルに混乱していました。

質問：

Tesseractやその他のOCRでテキストを認識してから、線や図などの他の要素を変更せずに、ぼやけたテキストの上に配置する方法はありますか？
そして、これが可能であれば、Tesseractや他のOCRに元のテキストの異なるサイズ、フォント、色を模倣させることも可能でしょうか？

ありがとうございます！

関連情報