マニュアルwget
ページには、パラメータセクションの下に次のように表示されます--random-wait
。
Some web sites may perform log analysis to identify retrieval
programs such as Wget by looking for statistically significant
similarities in the time between requests. [...]
A 2001 article in a publication devoted to development on a popular
consumer platform provided code to perform this analysis on the
fly. Its author suggested blocking at the class C address level to
ensure automated retrieval programs were blocked despite changing
DHCP-supplied addresses.
私はこの記事のコピーを読みたかったので、それを確認するためにインターネット上で複数の検索を実行しました。しかし、これらの検索で私が見つけることができるのは、wget
他のウェブサイトでホストされているマニュアルページやトピックとまったく関係のないいくつかの異なる研究論文だけでした。
どの記事が引用されているのか、どこでコピーを入手できるのかを知っている人はいますか?
答え1
直接的な答えではなく、この部分がコミットに導入された部分だと明らかにしてgit blame
もgit log
2c41d783Hrvoje Niksicというコミッタが作成しましたhniksic
。彼のメールアドレスはwgetファイルにありますChangeLog
(明らかな理由でここに投稿しないでください)。おそらく、その人がより適切な答えを与えることができる最高の人であろうので、その人に直接尋ねることをお勧めします。その過程で、それに合わせてマンページを更新するかどうか尋ねることもできます。 ;)
答え2
私の考えにはこの記事ではないかと思う。
デフォルトのSASを使用してウェブログから意味のあるデータを生成する
クラスCの範囲をブロックすることを議論する段落があります。
IPアドレスをコンポーネントに分割すると、IPアドレス範囲のフィルタリングが簡単になります。タイプBフィルタは、168.126.xx.xxなどの最初の2つのオクテットで動作します。これは上記のコード例の変数Onetwoです。クラスCの範囲はサーバー全体を対象としており、168.126.56.xxなどの4つのオクテットのうち3つを使用するため、より一般的に使用されます。上記のコード例では、UsrhostはWebログのTCP / IPアドレス値であるため、このフィールドは3です。
wget
ユーザーエージェントの文字列ベースのブロックで述べたように:
ユーザーエージェント文字列を識別するために私たちが好む方法は、インデックス付きパターンマッチング機能を利用します。たとえば、
if index(lowcase(agentstr), 'keynote') or index(lowcase(agentstr), 'sureseeker') or index(lowcase(agentstr), 'wget') or
5番目の結果です2001年以来、「ログ分析wget」のGoogle検索。