マニュアルを変換しようとしています。http://101.wacom.com/UserHelp/en/TOC/CTH-490.htmlPDFに変換してください。
Arch Linuxでは、次のことを試しました。
wget --recursive --page-requisites --domains wacom.com http://101.wacom.com/UserHelp/en/TOC/CTH-490.html
wkhtmltopdf 101.wacom.com/UserHelp/en/TOC/CTH-490.html foo.pdf
また、wkhtmltopdf
次に置き換えられました。
htmldoc --webpage -f foo.pdf 101.wacom.com/UserHelp/en/TOC/CTH-490.html
最初のページのみが表示されます(ほとんど空白htmldoc
)。
wkhtmltopdfはコミュニティリポジトリのバージョン0.12.5です。
HTMLDOCのバージョンは1.9.8です。
答え1
これは、スクリプトを介してコンテンツがロードされたHTMLから生成された空のシェルである動的ページです。 HTMLソースコードを見て、それがどのように機能するかを理解している場合は、予約されたチャンクに従って情報をダウンロードできますが、それらをまとめる必要があります。
動的サイトをクロールしようとすると、Pythonや他のライブラリが良い候補です。
これ回答役に立つかもしれません。