BashコマンドラインからPDFをWordに変換する正しい方法

BashコマンドラインからPDFをWordに変換する正しい方法

Debian サーバーでは、1K PDF ファイルを文書に変換する必要があります。 libreofficeコマンドラインを使用してPDFをWordに変換できます。

libreoffice --headless --invisible --convert-to doc Sample-doc-file-100kb.pdf

またはオフィスを使用して下さい:

soffice --nocrashreport --nologo --nolockcheck --nofirststartwizard --invisible --headless --convert-to doc Sample-doc-file-100kb.pdf

上記の2つのコマンドの主な問題は、ドキュメントファイルにページの画像が含まれておらず、リッチテキストのみが含まれることです。 PDFの画像を含むPDFを文書に変換するより良い方法はありますか?私はzamzamのようなWebサービスに興味がありません。サーバーのコマンドラインでこれを行う必要があります。ありがとうございます。

答え1

abiwordソフトウェアを試してみてください。たとえば、

abiword --to=doc example.pdf

答え2

私はこれを使ってそれをしました:

libreoffice --infilter=="writer_pdf_import" --headless \
--convert-to doc:"writer_pdf_Export" Brief.pdf  

@igiannakの答えと同じ結果を得ました。

答え3

pdfにある画像を含むpdfをdocxに変換するには、コマンドラインインタフェースコマンドを直接使用できます。 libreooficeとsofficeコマンドを試しましたが、linux / ubuntuで利用可能なpdfをwordに変換しながら、他のpywin32 com clinetライブラリなどの単純な形式のテキストのみを提供します。

オペレーティングシステムのインポートシステムのインポート

comtypes.clientのインポート

WD形式 PDF = 17

def covx_to_pdf(infile, outfile): """Word .docxをPDFに変換"""

word = comtypes.client.CreateObject('Word.Application')
doc = word.Documents.Open(infile)
doc.SaveAs(outfile, FileFormat=wdFormatPDF)
doc.Close()
word.Quit()

このコードはWindowsシステムでPDFを単語に変換できますが、このパッケージはLinux / Debianプラットフォームをサポートしていません。 Linux / debianでpdfを単語に変換するのと同じ実装に関する提案はありますか?

関連情報