PDFをテキストのみ(Unicode)と画像ベースのPDFに変換したいです。
したがって、PDF文書には画像とテキストのみを含める必要があります。私はGNU / Linux環境でこれをやりたいと思います。コマンドラインでこれを実行できるユーティリティがある場合は、より良いでしょう。
答え1
PDFファイル形式は、コアにPostScriptファイルを含む複雑な封筒です。正しい形式のPDFが必要で、それを検索して索引付けし、人間が読めるようにデータを抽出する場合同じです。 LinuxにはPDFを管理および最適化するためのいくつかのツールがありますが、どちらもPDFに関連するすべての問題を解決することはできません。たとえば、pdftools、pdftkなどがあります。