wget
すべての資産、必須要素を含むWebページ全体をダウンロードし、後で使用するためにカスタムフォルダに保存するコマンドを使用しています。
私の実際のコード:
$ wget --adjust-extension --span-hosts --convert-links --page-requisites \
--no-directories --restrict-file-names=windows --no-parent \
--user-agent="Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6"\
‐‐execute robots=off --limit-rate 400k --directory-prefix=elbache \
‐‐output-document=index.html http://www.bachecubano.com/celulares
今すべてが大丈夫ですが、CSSと画像だけを減らしたいです--page-requisites
(.JSファイルは必要ありません)。 .jsリソースをロードしないと、ダウンロードしたページはほぼ40%減少します。これは私の目的には必要ありません。
wget
承認のみを構成する方法.cssと/imagesしかし、* .jsファイルではありませんか?
答え1
wget
マニュアルページから:
-A acclist --accept acclist
-R rejlist --reject rejlist
Specify comma-separated lists of file name suffixes or patterns to
accept or reject. Note that if any of the wildcard characters,
*, ?, [ or ], appear in an element of acclist or rejlist, it will be
treated as a pattern, rather than a suffix.
したがって、すでに持っているスイッチに次のスイッチを追加できます。
-A css,png,jpg,gif,jpeg
メモ:あなたはそれを使用し、特定のサイトがどの画像形式を使用しているかを調べる必要があります。