文書に対応する一部のページを索引付けしようとしています。
私の考えでは、これのために
wget --no-parent -r -l 5 https://developer.mozilla.org/en-US/docs/Web/JavaScript/
ただし、リクエストは古いURLの親URLにリダイレクトされるため、https://developer.mozilla.org/en-US/docs/Web/JavaScript
ダウンロードされません。
したがって、この問題を解決するには -I を使用する必要があります。私が知る限り
wget \
`## Basic Startup Options` \
--execute robots=off \
`## Loggin and Input File Options` \
--output-file=$HOME/wget-last.log \
--debug \
`## Download Options` \
`## Directory Options` \
`## HTTP Options` \
--adjust-extension \
`## HTTPS Options` \
--no-check-certificate \
`## Recursive Retrieval Options` \
--recursive --level=5 \
`## Recursive Accept/Reject Options` \
-I=/en-US/docs/Web/JavaScript,/en-US/docs/Web/JavaScript/* \
https://developer.mozilla.org/en-US/docs/Web/JavaScript
これで旧サイトの作業が完了しました。ところで今はこんなタグに閉じ込められたようです。
<a href="/en-US/docs/Web/JavaScript/Tutorials"><strong>Tutorials</strong></a>
次のデバッグメッセージが表示されます。
Deciding whether to enqueue "https://developer.mozilla.org/en-US/docs/Web/JavaScript/Tutorials".
https://developer.mozilla.org/en-US/docs/Web/JavaScript/Tutorials (en-US/docs/Web/JavaScript) is excluded/not-included.
Decided NOT to load it.
ダウンロードする必要がある残りのファイルも同じです。