質問

Question

サイズの違いは、ABBYが商業的な魔法を使用して画像圧縮をインテリジェントに実行することに関連していると思います。

仮定しないで調べてみてください。 PDF形式はよく記録された、詳細をお読みください。エディタでPDFファイルを開くか、を使用してlessページが実際にどのようにエンコードされているかを確認し、違いを見つけます。または、mutoolsPDFファイルの一部を抽出できるコマンドラインツールに似たパッケージをインストールしてください。

PDFの画像は、保存された解像度（スキャンされた解像度と同じかもしれません）と圧縮アルゴリズムによって異なるスペースを占めます。

標準による標準圧縮方法は

ASCII 16進デコード
ASCII85デコード
LZWデコード（Lempel-Ziv-Welch）。
FlatDecode(zlib/deflate)
実行長の復号

そして、一部のコンテンツは適用されない場合があります。

そのため、ABBYが使用する解像度と圧縮方法を調べて、その方法を再現するためのツールを見つけてください（デフォルトで利用できない場合は、既存のツールを変更する必要があるかもしれません）。

私が理解しているように、これはABBYがマスク機能と一緒にJPXDecodeフィルタを使用して画像をエンコードすることを意味します。これは、JPXDecode（JPG2000？）圧縮を実行できるLinux / FOSS代替を探していることを意味します。

まさに。 JPGはいいえは写真中心なので、テキストに最適な圧縮方法です。つまり、一般的なテキストの鮮明な遷移を正しくレンダリングできません。一方、これはスキャンであるため、スキャン時に遷移が既に本質的にぼやけている可能性があります。

さらに、JPGには圧縮率と品質に影響を与えるパラメータがかなりあります。

したがって、この場合はmutools一部の画像を抽出し、他のツール（ImageMagick / GraphicsMagickなど）を使用してmediainfoJPGidentify -verbose画像のパラメータを見つけます。

まだ一つあります。非常に解凍したJPG画像を高倍率で注意深く見て、品質が十分であることを確認してください。

スキャンした画像から必要な解像度と品質でJPGファイルを生成するための多くのオープンソースツールが必要ですが、PDFにパッケージすることはできません。

Answer 1