Debian サーバーでは、1K PDF ファイルを文書に変換する必要があります。 libreofficeコマンドラインを使用してPDFをWordに変換できます。
libreoffice --headless --invisible --convert-to doc Sample-doc-file-100kb.pdf
またはオフィスを使用して下さい:
soffice --nocrashreport --nologo --nolockcheck --nofirststartwizard --invisible --headless --convert-to doc Sample-doc-file-100kb.pdf
上記の2つのコマンドの主な問題は、ドキュメントファイルにページの画像が含まれておらず、リッチテキストのみが含まれることです。 PDFの画像を含むPDFを文書に変換するより良い方法はありますか?私はzamzamのようなWebサービスに興味がありません。サーバーのコマンドラインでこれを行う必要があります。ありがとうございます。
答え1
abiwordソフトウェアを試してみてください。たとえば、
abiword --to=doc example.pdf
答え2
私はこれを使ってそれをしました:
libreoffice --infilter=="writer_pdf_import" --headless \
--convert-to doc:"writer_pdf_Export" Brief.pdf
@igiannakの答えと同じ結果を得ました。
答え3
pdfにある画像を含むpdfをdocxに変換するには、コマンドラインインタフェースコマンドを直接使用できます。 libreooficeとsofficeコマンドを試しましたが、linux / ubuntuで利用可能なpdfをwordに変換しながら、他のpywin32 com clinetライブラリなどの単純な形式のテキストのみを提供します。
オペレーティングシステムのインポートシステムのインポート
comtypes.clientのインポート
WD形式 PDF = 17
def covx_to_pdf(infile, outfile): """Word .docxをPDFに変換"""
word = comtypes.client.CreateObject('Word.Application')
doc = word.Documents.Open(infile)
doc.SaveAs(outfile, FileFormat=wdFormatPDF)
doc.Close()
word.Quit()
このコードはWindowsシステムでPDFを単語に変換できますが、このパッケージはLinux / Debianプラットフォームをサポートしていません。 Linux / debianでpdfを単語に変換するのと同じ実装に関する提案はありますか?