テキスト認識損失なしでPDF白黒圧縮

2024-6-5 • tag-icon

私が持っているさまざまなPDFファイルのサイズを減らす方法を探しています。私は多くのプログラムとメカニズムをテストしました。次の順序で最良の結果を得ました。

pdfimages -png file.pdf image

その後、scantailor（GUI）を使用してこれらの画像を処理して解像度を下げ、すべてのページを白黒に変換しました。次に、次のように圧縮します。

jbig2 -s -p -v *.jpg && pdf.py output > out.pdf

品質損失がほとんどなく、サイズが4-x5倍小さくなります。今まではそんなに良くなった。問題は、このプロセスでOCRとコメントが失われることです。

PDF解像度を減らし、白黒に変換し、jbig2encテキスト認識やコメントを失うことなく圧縮するなど、すべての手順を実行できるプログラムやメカニズムはありますか？

関連情報