まずwgetを試してみてください。
https://tse4.mm.bing.net/th?
正規表現を一致させ、指定されたURLから始まるすべての画像をダウンロードするためにこれを使用しようとしています。
しかし、これはうまくいかないようです。
問題のURLは次のとおりです。
https://www.bing.com/images/search?q=kary+perry+the+one+that+got+away+cover&scope=images
(bingから限られた数の画像をダウンロードするだけです)
ここではこのコマンドを使用しようとしています。
wget -nd -r -P save -A '^https://tse4.mm.bing.net/th?' https://www.bing.com/images/search?q=kary+perry+the+one+that+got+away+cover&scope=images
ただし、robots.txt ファイルをダウンロードします。
私がここで何を間違っているのか?ありがとう
答え1
このrobots.txt
ファイルの目的は、あなたのウェブサイトでロボット作業を実行するのを防ぐことです。wget
ファイルの希望はデフォルトで尊重されていますrobots.txt
。
このファイルは、Webサイトの所有者がWeb
/robots.txt
ロボットにWebサイトの指示を提供するために使用されますRobots Exclusion Protocol
。仕組みは次のとおりです。ボットがウェブサイトのURLにアクセスしようとしています。http://www.example.com/welcome.html。その前にまず確認してみましょう。http://www.example.com/robots.txt、そして以下を見つけました:
User-agent: *
Disallow: /
これは
User-agent: *
、このセクションがすべてのロボットに適用されることを意味します。Disallow: /
ウェブサイトのどのページも訪問してはならないとボットに知らせます。
Bingrobots.txt
ファイルには次のものがあります。
User-agent: *
Disallow: /account/
Disallow: /bfp/search
Disallow: /bing-site-safety
Disallow: /blogs/search/
Disallow: /entities/search
...
Allow: /shopping/$
Allow: /shopping$
...
Disallow: /th?
Disallow: /th$
...
だから彼らはあなたがそのパスから多くをダウンロードしたくありません。あなたは/shopping
それを試してみることができます。
robots.txt
このファイルを迂回し、必要に応じて実行する方法を見つけたら、悪意のある行動を取ることで、WebサイトからあなたのIPをブロックする可能性があります。
結論として
あなたはおそらく何も間違っていなかったでしょう(私は決してwgetの専門家ではないので、構文エラーもあるかもしれません。)、しかしこれは許可されていません。