何千ものダウンロード（wgetを使用）HTML文書をDOCXにバッチ変換

Question

1.ダウンロード後の変換

保存されたHTMLファイルにPandocを使用すると、どのような問題がありますか？

HTMLがすべて次のディレクトリにあるとします。wget-html、次のことができます。

CD wget-html

 探す。 - 名前 "*.docx"\
   xargs -0\
   読む\
     --from=html\
     --to=docx\
     --目次\
     --独立した\
     --output={}.pdf
     {}\;

これにより、各ファイルのPDFファイルが生成されます。「パス/to/some.html」名前付き「パス/to/some.html.pdf」。

このようなことが起こるようにしたい場合は、そう言います。しかし、最初に使用している正確なwgetコマンドが何であるかを教えてください。

Answer 1

保存されたHTMLファイルにPandocを使用すると、どのような問題がありますか？

HTMLがすべて次のディレクトリにあるとします。wget-html、次のことができます。

CD wget-html

 探す。 - 名前 "*.docx"\
   xargs -0\
   読む\
     --from=html\
     --to=docx\
     --目次\
     --独立した\
     --output={}.pdf
     {}\;

これにより、各ファイルのPDFファイルが生成されます。「パス/to/some.html」名前付き「パス/to/some.html.pdf」。

このようなことが起こるようにしたい場合は、そう言います。しかし、最初に使用している正確なwgetコマンドが何であるかを教えてください。