OCRの既存のテキストレイヤーを維持しながら、スキャンしたPDFファイルの色を変換し、スキャン解像度を減らしてメモリを節約できますか？

2024-6-10 • tag-icon

OCRの既存のテキストレイヤーを維持しながら、スキャンしたPDFファイルの色を変換し、スキャン解像度を減らしてメモリを節約できますか？

ずっと前にスキャンされ、すでに検索可能な（つまりOCR処理されている）PDFファイルがたくさんあります。

ただし、照明レベルとコントラスト設定は最適ではありません。

既存のファイルのピクセルあたりのビット数を合理的に低いレベルに減らすことは可能ですか？保存スペースを節約するために（Gimpや他の画像操作プログラムと同様に、カラーカーブ変換、トーン分離、または白黒へのバイナリ化）？

ファイルは600dpiでスキャンされ、すでに検索可能です。つまり、スキャンした画像に加えてテキストレイヤーがあります。より良いOCR結果を得るために、これらの高いスキャン解像度を選択した可能性があります。しかし、これはサイズが大きすぎます。私の考えでは、200dpiスキャンはメモリ要件がはるかに少なくても良い視覚品質を提供します。 OCRで生成されたテキストレイヤーを良いOCR品質に保ちたいです。正しいコマンドは何ですか？

関連情報