wgetからダウンロードしたすべてのファイルをURLからHTML形式に処理して変換したいと思います。
ウェブページ全体をDOCX形式に変換したいと思います。私たちはURLからダウンロードされた3000のHTML文書について話しています。自動化がなければ、この作業はPandocに退屈します。
どういうわけか自動的に実行できますか?
答え1
1.ダウンロード後の変換
保存されたHTMLファイルにPandocを使用すると、どのような問題がありますか?
HTMLがすべて次のディレクトリにあるとします。wget-html、次のことができます。
CD wget-html 探す。 - 名前 "*.docx"\ xargs -0\ 読む\ --from=html\ --to=docx\ --目次\ --独立した\ --output={}.pdf {}\;
これにより、各ファイルのPDFファイルが生成されます。「パス/to/some.html」名前付き「パス/to/some.html.pdf」。
2.ダウンロード中に変換
このようなことが起こるようにしたい場合は、そう言います。しかし、最初に使用している正確なwgetコマンドが何であるかを教えてください。