%20%E3%81%AF%E9%99%A4%E5%A4%96%2F%E5%90%AB%E3%81%BE%E3%82%8C%E3%81%BE%E3%81%9B%E3%82%93%E3%80%82%E3%83%AD%E3%83%BC%E3%83%89%E3%81%97%E3%81%AA%E3%81%84%E3%81%93%E3%81%A8%E3%81%AB%E3%81%97%E3%81%BE%E3%81%97%E3%81%9F.png)
文書に対応する一部のページを索引付けしようとしています。
私の考えでは、これのために
wget --no-parent -r -l 5 https://developer.mozilla.org/en-US/docs/Web/JavaScript/
ただし、リクエストは古いURLの親URLにリダイレクトされるため、https://developer.mozilla.org/en-US/docs/Web/JavaScript
ダウンロードされません。
したがって、この問題を解決するには -I を使用する必要があります。私が知る限り
wget \
`## Basic Startup Options` \
--execute robots=off \
`## Loggin and Input File Options` \
--output-file=$HOME/wget-last.log \
--debug \
`## Download Options` \
`## Directory Options` \
`## HTTP Options` \
--adjust-extension \
`## HTTPS Options` \
--no-check-certificate \
`## Recursive Retrieval Options` \
--recursive --level=5 \
`## Recursive Accept/Reject Options` \
-I=/en-US/docs/Web/JavaScript,/en-US/docs/Web/JavaScript/* \
https://developer.mozilla.org/en-US/docs/Web/JavaScript
これで旧サイトの作業が完了しました。ところで今はこんなタグに閉じ込められたようです。
<a href="/en-US/docs/Web/JavaScript/Tutorials"><strong>Tutorials</strong></a>
次のデバッグメッセージが表示されます。
Deciding whether to enqueue "https://developer.mozilla.org/en-US/docs/Web/JavaScript/Tutorials".
https://developer.mozilla.org/en-US/docs/Web/JavaScript/Tutorials (en-US/docs/Web/JavaScript) is excluded/not-included.
Decided NOT to load it.
ダウンロードする必要がある残りのファイルも同じです。