CHM / ...電子ブックを生成したい:サブセット条件付きwgettingを使用してデータサブセットを再帰的にダウンロードするウェブサイト.container
CHM本のHTMLクラスにあります。擬似コード
wgetは章のすべてのリンクを再帰的に取得します。
# TODO returns only index.html wget --random-wait -r -p -nd -e robots=off -A".html" \ -U mozilla https://wwwnc.cdc.gov/travel/yellowbook/2018/table-of-contents
現在のホームページのコンテンツ
.container
と図1のリンクされたサブページのコンテンツ。CHM電子ブックおよび/またはその他の形式の作成
図1 CDC Yellow Book Check.container
出力:index.html
期待される出力:電子ブックCHMおよび/または他のフォーマット
Wgetの提案
チーム
wget -w5 --random-wait -r -nd -e robots=off -A".html" -U mozilla https://wwwnc.cdc.gov/travel/yellowbook/2018/table-of-contents
出力:最初のコードと同じです。
拒否リストが添付されています。
wget -w5 --random-wait -r -nd -e robots=off -A".html" \ -U mozilla -R css https://wwwnc.cdc.gov/travel/yellowbook/2018/table-of-contents
出力:拒否リストがないのと同じです。
別の変形
wget -w5 --random-wait -r -nd -e robots=off -A".html" \ -U mozilla https://wwwnc.cdc.gov/travel/yellowbook/2018/table-of-contents
出力:以前と似ています。
www.html2pdf.itツールは以下を提供します。
取得できませんhttp://wwwnc.cdc.gov/travel/yellowbook/2016/table-of-contents:httpステータスコード404
オペレーティングシステム:Debian 8.7
答え1
私はあなたの問題を発見しました。-A".html"
.のみ許可するように制限します.html
。その部分を削除すると、すべてのファイルのダウンロードが開始されます。
wget -w5 -r -nd -e robots=off -U mozilla http://wwwnc.cdc.gov/travel/yellowbook/2016/table-of-contents
編集する:
js/css/etcファイルを除外するには、-R
includeの代わりにフォーム拒否リストを使用することをお勧めしますhtml
。
答え2
コンテンツを含めたり除外する必要はなく、すべてダウンロードする必要があると思います。 CHMはHTMLにコンパイルされるため、既存のCSSを置き換えるCSSが必要です。既存のCSSに基づいて使用するよりも優れたソリューションがありますか?
JavaScriptの場合、一部のデータがデフォルトで非表示になっている可能性があることがわからないため、何をしているのかを確認したい場合があります。
master.hhc(CHM用)に何が含まれているか除外されるかを定義できることに注意してください。
必要です。Microsoft HTMLヘルプワークショップCHM をコンパイルするには、次を使用することをお勧めします。遠くまた、必要なものや望まないものを編集することもできます。
このツールはWindowsで動作するように設計されており、ワインでも動作すると確信していますが、まだテストしていません。