wget は正規表現と一致します。

wget は正規表現と一致します。

まずwgetを試してみてください。

https://tse4.mm.bing.net/th?正規表現を一致させ、指定されたURLから始まるすべての画像をダウンロードするためにこれを使用しようとしています。

しかし、これはうまくいかないようです。

問題のURLは次のとおりです。

https://www.bing.com/images/search?q=kary+perry+the+one+that+got+away+cover&scope=images

(bingから限られた数の画像をダウンロードするだけです)

ここではこのコマンドを使用しようとしています。

wget -nd -r -P save -A '^https://tse4.mm.bing.net/th?' https://www.bing.com/images/search?q=kary+perry+the+one+that+got+away+cover&scope=images

ただし、robots.txt ファイルをダウンロードします。

私がここで何を間違っているのか?ありがとう

答え1

このrobots.txtファイルの目的は、あなたのウェブサイトでロボット作業を実行するのを防ぐことです。wgetファイルの希望はデフォルトで尊重されていますrobots.txt

このファイルは、Webサイトの所有者がWeb/robots.txtロボットにWebサイトの指示を提供するために使用されますRobots Exclusion Protocol

仕組みは次のとおりです。ボットがウェブサイトのURLにアクセスしようとしています。http://www.example.com/welcome.html。その前にまず確認してみましょう。http://www.example.com/robots.txt、そして以下を見つけました:

User-agent: *
Disallow: /

これはUser-agent: *、このセクションがすべてのロボットに適用されることを意味します。Disallow: /ウェブサイトのどのページも訪問してはならないとボットに知らせます。


Bingrobots.txtファイルには次のものがあります。

User-agent: *
Disallow: /account/
Disallow: /bfp/search
Disallow: /bing-site-safety
Disallow: /blogs/search/
Disallow: /entities/search
...
Allow: /shopping/$
Allow: /shopping$
...
Disallow: /th?
Disallow: /th$
...

だから彼らはあなたがそのパスから多くをダウンロードしたくありません。あなたは/shoppingそれを試してみることができます。

robots.txtこのファイルを迂回し、必要に応じて実行する方法を見つけたら、悪意のある行動を取ることで、WebサイトからあなたのIPをブロックする可能性があります。


robotstxt.org


結論として

あなたはおそらく何も間違っていなかったでしょう(私は決してwgetの専門家ではないので、構文エラーもあるかもしれません。)、しかしこれは許可されていません。

関連情報