同じページとコンテンツ名のウェブサイトを取得するには?

同じページとコンテンツ名のウェブサイトを取得するには?

次のページを含むウェブサイトをミラーリングしようとしています。

http://www.site.com/news

内容:

http://www.site.com/news/36-news/news-one
http://www.site.com/news/37-news/news-two
http://www.site.com/news/38-news/another-news-here

これが私が使うものです

wget -m -Dsite.com -e robots=off -r -q -R gif,png,jpg,jpeg,GIF,PNG,JPG,JPEG \
    -t 10 http://www.site.com &

wgetが実行されるとnews

同じ名前のファイルがすでに存在するため、コンテンツをダウンロードできません。news(私はUbuntuを実行しています。ディレクトリはファイルと同じ名前を持つことはできません。)

wget以下は、実行に失敗したときに表示されるメッセージです。-q

www.site.com/news/36-news: ディレクトリではない
www.site.com/news/36-news/news-one: ディレクトリではない

答え1

試してみてください--no-clobber。しかし、私の考えでは、あなたはより完全な機能を備えたものに適しているようです。httrack。コマンドラインオプションのマニュアルは次のとおりです。http://www.httrack.com/html/fcguide.html

次のように、すべてのディレクトリにプレフィックスを付けることができます。

httrack "http://www.site.com/news" -O /tmp/site -N "my%p/%n.%t"

したがって、完全なコマンドはあなたのコマンドに似ており、次のようになります。

httrack "http://www.site.com/news" -O /tmp/site -N "my%p/%n.%t" --retries=10 --ext-depth=0 --robots=0 +*.gif +*.png +*.jpg +*.jpeg +*.GIF +*.PNG +*.JPG +*.JPEG

関連情報