すべてのロボットは禁止されていましたが、Bingロボットはルールに従わないため、Bingロボットはrobots.txtルールに従わないことがわかりました。 .htaccessを使っていくつかのロボットをブロックしました。すべてのロボットをブロックするコードはありますか?
答え1
すべてのボットは次のようにブロックする必要が/robots.txt
あります.htaccess
。
# cat robots.txt
User-agent: *
Disallow: /
ファイルは文書のルートになければならず、誰でも読むことができなければなりません。 Webブラウザで開いて確認してください。http://yourdomain/robots.txt
ファイルの内容を提供する必要があります。
技術的には、ボットはそれに従わないかもしれませんが、実際には従うべきです。 Bingがそうだと確信しています。
何らかの理由で(実際のBingを使用する可能性が低い)これがうまくいかない場合は、次のことを試してください。
# cat .htaccess
SetEnvIfNoCase User-Agent .*bot.* search_robot
SetEnvIfNoCase User-Agent .*bing.* search_robot
SetEnvIfNoCase User-Agent .*crawl.* search_robot
Order Deny,Allow
Deny from env=search_robot
Allow from All
mod_setenvif
これを行うには、Apacheモジュールを有効にする必要があります。http://www.askapache.com/htaccess/setenvif.html