質問

質問

質問

スキャンしてデジタル化したい古い本がたくさんあります。私はこれに評判のスキャナーを使用しましたが、うまくいきましxsaneGImageReader

数年前、まだWindowsでこんなことをしている時に使ってABBY Fine Reader満足していましたが、Linuxでは使えません。

今作成したPDFと以前に作成したPDFを比較すると、今日のファイルがはるかに大きいことがわかります。

ABBYを使用すると、ファイルサイズが10〜50MBの間の50〜60ページのPDFを取得できましたが、これは大丈夫だと思いました。最近、私のPDFファイルは50〜60ページで、ファイルサイズは150MB以上なので、スマートフォンで読むときはあまり役に立ちません。

私は同じスキャン設定を使用します。

  • A4ページ
  • jpg圧縮
  • 300dpi
  • カバーカラースキャン
  • すべての内部ページのグレースケールスキャン

サイズの違いは、ABBYが商業的な魔法を使用してインテリジェントに画像圧縮を実行することに関連していますが、GImageReaderはそうではないと思います。おそらく空ではない領域(画像やテキストブロック)を識別し、「背景画像」などを積極的に圧縮しながらより高品質で保存したり、一部のページはグレースケールで、他のページはグレースケールカラーであることを認識したりできます。では、これらの区別が失われる可能性がありますGImageReader。私は本当に知らない。しかし、私はそれについて知りたいです。

私が試したこと

それ以来、私はさまざまなPDF圧縮方法の実験を始めました。ほとんどのオンラインガイドでは、またはgsいずれかを使用することをお勧めしますpdftk。私は両方試してみました。私の場合は、次の事実を観察しました。

  • オプション1:およびgs設定はファイルサイズをまったく縮小せず、設定によって画質が大幅に低下します。pdf->pdf/printer/prepress/screen/ebook
  • オプション2:その時のgsために。これはファイルサイズを大幅に縮小し(これがなぜオプション1と異なるのか理解できませんが、とにかく)、翻訳時にテキストの文字の外観が失われたことがわかるまで、このオプションに満足していました。 PDFからテキストをコピーして貼り付けると、いくつかのウィングディングタイプの横説説が発生しますが、元のPDFからテキストをコピーして貼り付けることができるため、これはできません。pdf->psps->pdf
  • オプション3:ファイルサイズがpdftkまったく縮小しないようですpdf->pdf

今何をすべきか

私はPDF圧縮技術がどのように全く異なる結果を生み出すことができるかについて少し混乱しています。 Linux(FOSSが望ましいが安価な商用製品も気に入っています)で実行され、スキャンされたPDFとOCRd PDFのためのかなりのPDF圧縮を提供するツールを探しています。 300dpi A4 JPGに比べて品質が低い損失。

答え1

サイズの違いは、ABBYが商業的な魔法を使用して画像圧縮をインテリジェントに実行することに関連していると思います。

仮定しないで調べてみてください。 PDF形式はよく記録された、詳細をお読みください。エディタでPDFファイルを開くか、を使用してlessページが実際にどのようにエンコードされているかを確認し、違いを見つけます。または、mutoolsPDFファイルの一部を抽出できるコマンドラインツールに似たパッケージをインストールしてください。

PDFの画像は、保存された解像度(スキャンされた解像度と同じかもしれません)と圧縮アルゴリズムによって異なるスペースを占めます。

標準による標準圧縮方法は

  • ASCII 16進デコード
  • ASCII85デコード
  • LZWデコード(Lempel-Ziv-Welch)。
  • FlatDecode(zlib/deflate)
  • 実行長の復号

そして、一部のコンテンツは適用されない場合があります。

そのため、ABBYが使用する解像度と圧縮方法を調べて、その方法を再現するためのツールを見つけてください(デフォルトで利用できない場合は、既存のツールを変更する必要があるかもしれません)。


私が理解しているように、これはABBYがマスク機能と一緒にJPXDecodeフィルタを使用して画像をエンコードすることを意味します。これは、JPXDecode(JPG2000?)圧縮を実行できるLinux / FOSS代替を探していることを意味します。

まさに。 JPGはいいえは写真中心なので、テキストに最適な圧縮方法です。つまり、一般的なテキストの鮮明な遷移を正しくレンダリングできません。一方、これはスキャンであるため、スキャン時に遷移が既に本質的にぼやけている可能性があります。

さらに、JPGには圧縮率と品質に影響を与えるパラメータがかなりあります。

したがって、この場合はmutools一部の画像を抽出し、他のツール(ImageMagick / GraphicsMagickなど)を使用してmediainfoJPGidentify -verbose画像のパラメータを見つけます。

まだ一つあります。非常に解凍したJPG画像を高倍率で注意深く見て、品質が十分であることを確認してください。

スキャンした画像から必要な解像度と品質でJPGファイルを生成するための多くのオープンソースツールが必要ですが、PDFにパッケージすることはできません。

関連情報