PDFファイルからすべてのメタデータ、識​​別オブジェクト、埋め込みデータ、PDF以外/埋め込みバイナリ、ID(ID)、埋め込み文字などを削除するには?

PDFファイルからすべてのメタデータ、識​​別オブジェクト、埋め込みデータ、PDF以外/埋め込みバイナリ、ID(ID)、埋め込み文字などを削除するには?

PDFをテキストのみ(Unicode)と画像ベースのPDFに変換したいです。

したがって、PDF文書には画像とテキストのみを含める必要があります。私はGNU / Linux環境でこれをやりたいと思います。コマンドラインでこれを実行できるユーティリティがある場合は、より良いでしょう。

答え1

PDFファイル形式は、コアにPostScriptファイルを含む複雑な封筒です。正しい形式のPDFが必要で、それを検索して索引付けし、人間が読めるようにデータを抽出する場合同じです。 LinuxにはPDFを管理および最適化するためのいくつかのツールがありますが、どちらもPDFに関連するすべての問題を解決することはできません。たとえば、pdftools、pdftkなどがあります。

関連情報