CHM / ...電子ブックを取得して生成するためにサブセット条件を使用する方法は?

CHM / ...電子ブックを取得して生成するためにサブセット条件を使用する方法は?

CHM / ...電子ブックを生成したい:サブセット条件付きwgettingを使用してデータサブセットを再帰的にダウンロードするウェブサイト.containerCHM本のHTMLクラスにあります。擬似コード

  1. wgetは章のすべてのリンクを再帰的に取得します。

    # TODO returns only index.html
    wget --random-wait -r -p -nd -e robots=off -A".html" \ 
     -U mozilla https://wwwnc.cdc.gov/travel/yellowbook/2018/table-of-contents
    
  2. 現在のホームページのコンテンツ.containerと図1のリンクされたサブページのコンテンツ。

  3. CHM電子ブックおよび/またはその他の形式の作成

図1 CDC Yellow Book Check.container

ここに画像の説明を入力してください。

出力:index.html

期待される出力:電子ブックCHMおよび/または他のフォーマット

Wgetの提案

  1. チーム

    wget -w5 --random-wait -r -nd -e robots=off -A".html" -U mozilla https://wwwnc.cdc.gov/travel/yellowbook/2018/table-of-contents
    

    出力:最初のコードと同じです。

  2. 拒否リストが添付されています。

    wget -w5 --random-wait -r -nd -e robots=off -A".html" \
     -U mozilla -R css https://wwwnc.cdc.gov/travel/yellowbook/2018/table-of-contents
    

    出力:拒否リストがないのと同じです。

  3. 別の変形

    wget -w5 --random-wait -r -nd -e robots=off -A".html" \
     -U mozilla https://wwwnc.cdc.gov/travel/yellowbook/2018/table-of-contents
    

    出力:以前と似ています。

www.html2pdf.itツールは以下を提供します。

取得できませんhttp://wwwnc.cdc.gov/travel/yellowbook/2016/table-of-contents:httpステータスコード404

オペレーティングシステム:Debian 8.7

答え1

私はあなたの問題を発見しました。-A".html".のみ許可するように制限します.html。その部分を削除すると、すべてのファイルのダウンロードが開始されます。

wget -w5 -r -nd -e robots=off -U mozilla http://wwwnc.cdc.gov/travel/yellowbook/2016/table-of-contents

編集する: js/css/etcファイルを除外するには、-Rincludeの代わりにフォーム拒否リストを使用することをお勧めしますhtml

答え2

コンテンツを含めたり除外する必要はなく、すべてダウンロードする必要があると思います。 CHMはHTMLにコンパイルされるため、既存のCSSを置き換えるCSSが必要です。既存のCSSに基づいて使用するよりも優れたソリューションがありますか?

JavaScriptの場合、一部のデータがデフォルトで非表示になっている可能性があることがわからないため、何をしているのかを確認したい場合があります。

master.hhc(CHM用)に何が含まれているか除外されるかを定義できることに注意してください。

必要です。Microsoft HTMLヘルプワークショップCHM をコンパイルするには、次を使用することをお勧めします。遠くまた、必要なものや望まないものを編集することもできます。

このツールはWindowsで動作するように設計されており、ワインでも動作すると確信していますが、まだテストしていません。

関連情報