wget は正規表現と一致します。

Question

このrobots.txtファイルの目的は、あなたのウェブサイトでロボット作業を実行するのを防ぐことです。wgetファイルの希望はデフォルトで尊重されていますrobots.txt。

このファイルは、Webサイトの所有者がWeb/robots.txtロボットにWebサイトの指示を提供するために使用されますRobots Exclusion Protocol。

仕組みは次のとおりです。ボットがウェブサイトのURLにアクセスしようとしています。http://www.example.com/welcome.html。その前にまず確認してみましょう。http://www.example.com/robots.txt、そして以下を見つけました：

User-agent: *
Disallow: /

これはUser-agent: *、このセクションがすべてのロボットに適用されることを意味します。Disallow: /ウェブサイトのどのページも訪問してはならないとボットに知らせます。

Bingrobots.txtファイルには次のものがあります。

User-agent: *
Disallow: /account/
Disallow: /bfp/search
Disallow: /bing-site-safety
Disallow: /blogs/search/
Disallow: /entities/search
...
Allow: /shopping/$
Allow: /shopping$
...
Disallow: /th?
Disallow: /th$
...

だから彼らはあなたがそのパスから多くをダウンロードしたくありません。あなたは/shoppingそれを試してみることができます。

robots.txtこのファイルを迂回し、必要に応じて実行する方法を見つけたら、悪意のある行動を取ることで、WebサイトからあなたのIPをブロックする可能性があります。

robotstxt.org

結論として

あなたはおそらく何も間違っていなかったでしょう（私は決してwgetの専門家ではないので、構文エラーもあるかもしれません。）、しかしこれは許可されていません。

Answer 1