pdftotextで生成されたテキストファイルを再びpdfに変換するには?

pdftotextで生成されたテキストファイルを再びpdfに変換するには?

pdftotextPopplerにはPDFファイルをテキストファイルに変換する素晴らしいツールがあります。

pdftotext input.pdf output.txt

このテキストファイルをpdfに変換する方法はありますか?

変換とは、元のPDFファイルとページの内容が類似したPDFファイルを取得することを意味します。

可能であれば、ページ番号は元のページ番号と同じでなければなりません。ただし、必須ではありません。ページ番号のないPDFも許可されています。

正確な外観は重要ではありません。

いくつかの潜在的なユースケースシナリオ:

  1. 誤ってpdfファイルを削除しましたが、pdftotextからテキストファイルをもう一度受け取りました。
  2. テキストエディタでテキストファイルを編集し、PDFファイルの更新版を作成しようとしています。
  3. 小さいサイズのPDFファイルを生成します。

答え1

多くのオプションがあります。理論的には、プレーンテキストを読み取って印刷できるすべてのプログラムは、PDFを生成する仮想プリンタに印刷できます。

しかし、プログラムでこれを行う場合は、おそらく次のようにします。読書:

pandoc filename.txt -o output.pdf

デフォルトでは、pdflatexはPDFを生成するために使用されますが、TeXディストリビューションのように重いものをインストールしたくない場合は、次のような他のバックエンドを使用できます。ウェイプリントまたはwkhtmlをpdfに:

pandoc --pdf-engine weasyprint filename.txt -o output.pdf

しかし、もちろん、すでに指摘したように、結果は元のコンテンツの形式、フォントなどを保持しません。

答え2

プログラムに似ているa2psBash機能を使用してくださいa2pdf

a2pdf () 
{ 
    lowriter --headless --convert-to pdf "$1"
}

ご存知のように、pdftotextを使用すると、フォント、書式、リンクなどのPDFのすべての属性が失われます。

関連情報