非常に長いウェブサイトPDFがあるとしましょう。もう少し読んだ後、そこに無関係なページがあることがわかりましたが、ページを削除することを決めるたびにウェブサイトを見つける必要はなく、ページを選択する代わりにPDFで印刷したいと思います。印刷(CUPS-PDFを使用)。特にこれを何度も実行するとPDF品質が低下しますか?私が探していることを達成するためのより良い方法はありますか?私は混在した結果でPDFEditを試してみました。もちろん、不要なページを無視するのと同じ技術を使用して、いつでもサイトに戻って新しいバージョンを保存できます。
答え1
原則として、特定のプログラムチェーンを介してPDFを印刷すると、品質を損なうことなくPDFを印刷できます。
認知的にロスレス変換を保証するには、次の2つのことが必要です。
チェーン内の各リンクは、すべての文書要素を理解し、チェーンの次の部分に損失なく伝えることができなければなりません。
文書に埋め込まれたフォントが含まれている場合は、PDF作成者が検索できる場所にフォントをインストールして、再度埋め込む必要があります。それ以外の場合は、埋め込みフォントが何らかの方法でチェーンを通過する必要があります。
ドキュメントに含まれているアプレット(JavaScript、Flash、Postscript...)が含まれている場合は、そのアプレットをそのまま渡す必要があります。
ドキュメントにハイパーリンク、アクティブフォーム、OCRテキストレイヤー、カスタムページ番号、印刷されていないマーク、説明、メタデータなどが含まれている場合、チェーンのすべての部分がこのデータを作成者に渡す方法を知る必要があります。
ドキュメントに混在するページサイズが含まれている場合、チェーン内のプログラムもこのトリックを実装できるはずです。
チェーン内のどのリンクも、それを通過するデータを再解釈することはできません。たとえば、PDFチェーンでは、画像を再サンプリングしてより効率的な損失形式に変換するのが一般的です。元のPDFの画像がすでに低いDPI JPEGの場合でも、チェーンのさまざまな部分から別のDPIを選択したり、圧縮レベルの設定が異なる場合があります。
(ところで、PDF-PDFチェーンの一方または両端に技術的にJPEGがあるという事実は、元のJPEGデータがそのまま渡されない限り、チェーンがロスレスではないことを意味しますが、圧縮ステップは次のようになります。無損失ですが、必ずしもそうではありませんが、時には意図的なケースもあります。
これまで、私は認識された品質だけを考慮しました。認知的にロスレス変換は可能ですが、編集の可能性を失うか、大きなファイルで終わります。
基本的なソースから生成されたテキストを含むPDF文書(つまり、他の文書表示形式でスキャンまたは変換されていない)には、通常、PDFリーダーがワードプロセッサのように画面上にテキストを描画できるようにする実際のテキストとフォントデータが含まれています。あります。
これらのテキストは、認知的にロスレスな方法で2Dラスターまたはベクターアートに変換できます。 PDFでは、印刷されないOCRテキストレイヤーを使用して、検索可能性とスクリーンリーダーのアクセシビリティを維持することもできます。しかし、これらの変換はファイルサイズを増やし、編集をより困難にします。
ベクターアートは、印刷/表示DPIと同じまたはその倍数のDPIを使用してラスタライズできます。
このチェーンは、画質を損なうことなくすべてのJPEGをTIFFに変換します。
チェーンには、DPI を変更せずに高固定品質設定を使用して目立つアーティファクトを防止する JPEG から JPEG への操作を含めることができます。
ページを削除する簡単な場合は、PDFファイル形式をよく理解するプログラムを使用してページデータを削除するだけで、損失のない保証を受けるのはかなり簡単です。 PDFのページは多少独立しているので、これは完全に可能です。既存のファイルがエンコードされた特定のPDFバリアントについて十分に知っているツールを見つけるだけです。 PDFは非常に複雑なファイル形式なので、PDFをサポートすると主張するプログラムが実際には部分的なサポートのみを提供することがよくあります。 PDFを100%理解するプログラムはAdobe Acrobat Proのみです。私はPDFを処理する他のすべてのプログラムが実際にサブセットであることを知って驚いていませんでした。
結論は、PDFから印刷されたPDFチェーンがそのような品質保証を提供するとは期待していないということです。解釈と仲裁の機会が多すぎます。
答え2
あなたの主な目標を正しく理解したら、PDFで印刷するのに問題は必要ありません。次のコマンドラインツールを使用できます。pdftk
PDFファイルから直接ページセットを抽出して新しいページとして保存します。 (最適化、パスワードの追加と削除、特定のページの回転など、より多くの作業も可能です。)このツールは(おそらく)すべてのデスクトップLinuxディストリビューションのパッケージリポジトリで利用できます。
使用する主なタスクはpdftk
次のとおりです。猫。これは非常に直感的に機能します。たとえば、次のようになります。
pdftk input_file.pdf cat 3-23 50-end output output_file.pdf
output_file.pdf
元のファイルの3〜23ページと50ページから最後まで構成されたファイルが作成されますinput_file.pdf
。より多くの例を参照してくださいman pdftk
(マニュアルの終わり)。
答え3
一般的に言えば、品質損失は発生しないでください。もしそうなら、形式ではなくプログラムを非難してください。発生する可能性のある状況は、品質の低下と見なすことができます。
- イメージが再圧縮される可能性があります(ビルド損失が発生する可能性があります)。
- テキスト(およびその他のベクトル)がスプラインになり、ユーザビリティの問題(テキストをコピーできない)などを引き起こす可能性があります。
私はCUPS-PDF
orを使ったことがありませんPDFEdit
。したがって、これは起こることができることの前提です。つまり、そのようなことが起こる可能性があるかどうかはわかりません。