何千ものダウンロード(wgetを使用)HTML文書をDOCXにバッチ変換

何千ものダウンロード(wgetを使用)HTML文書をDOCXにバッチ変換

wgetからダウンロードしたすべてのファイルをURLからHTML形式に処理して変換したいと思います。

ウェブページ全体をDOCX形式に変換したいと思います。私たちはURLからダウンロードされた3000のHTML文書について話しています。自動化がなければ、この作業はPandocに退屈します。

どういうわけか自動的に実行できますか?

答え1

1.ダウンロード後の変換

保存されたHTMLファイルにPandocを使用すると、どのような問題がありますか?

HTMLがすべて次のディレクトリにあるとします。wget-html、次のことができます。

CD wget-html

 探す。 - 名前 "*.docx"\
   xargs -0\
   読む\
     --from=html\
     --to=docx\
     --目次\
     --独立した\
     --output={}.pdf
     {}\;

これにより、各ファイルのPDFファイルが生成されます。「パス/to/some.html」名前付き「パス/to/some.html.pdf」

2.ダウンロード中に変換

このようなことが起こるようにしたい場合は、そう言います。しかし、最初に使用している正確なwgetコマンドが何であるかを教えてください。

関連情報