次のページを含むウェブサイトをミラーリングしようとしています。
http://www.site.com/news
内容:
http://www.site.com/news/36-news/news-one
http://www.site.com/news/37-news/news-two
http://www.site.com/news/38-news/another-news-here
これが私が使うものです
wget -m -Dsite.com -e robots=off -r -q -R gif,png,jpg,jpeg,GIF,PNG,JPG,JPEG \
-t 10 http://www.site.com &
wgetが実行されるとnews
。
同じ名前のファイルがすでに存在するため、コンテンツをダウンロードできません。news
(私はUbuntuを実行しています。ディレクトリはファイルと同じ名前を持つことはできません。)
wget
以下は、実行に失敗したときに表示されるメッセージです。-q
www.site.com/news/36-news: ディレクトリではない
www.site.com/news/36-news/news-one: ディレクトリではない
答え1
試してみてください--no-clobber
。しかし、私の考えでは、あなたはより完全な機能を備えたものに適しているようです。httrack。コマンドラインオプションのマニュアルは次のとおりです。http://www.httrack.com/html/fcguide.html
次のように、すべてのディレクトリにプレフィックスを付けることができます。
httrack "http://www.site.com/news" -O /tmp/site -N "my%p/%n.%t"
したがって、完全なコマンドはあなたのコマンドに似ており、次のようになります。
httrack "http://www.site.com/news" -O /tmp/site -N "my%p/%n.%t" --retries=10 --ext-depth=0 --robots=0 +*.gif +*.png +*.jpg +*.jpeg +*.GIF +*.PNG +*.JPG +*.JPEG