「自動検索プログラム」を防ぐwgetのマニュアルページに記載されている「2001記事」とは何ですか?

「自動検索プログラム」を防ぐwgetのマニュアルページに記載されている「2001記事」とは何ですか?

マニュアルwgetページには、パラメータセクションの下に次のように表示されます--random-wait

    Some web sites may perform log analysis to identify retrieval
    programs such as Wget by looking for statistically significant
    similarities in the time between requests. [...]

    A 2001 article in a publication devoted to development on a popular
    consumer platform provided code to perform this analysis on the
    fly.  Its author suggested blocking at the class C address level to
    ensure automated retrieval programs were blocked despite changing
    DHCP-supplied addresses.

私はこの記事のコピーを読みたかったので、それを確認するためにインターネット上で複数の検索を実行しました。しかし、これらの検索で私が見つけることができるのは、wget他のウェブサイトでホストされているマニュアルページやトピックとまったく関係のないいくつかの異なる研究論文だけでした。

どの記事が引用されているのか、どこでコピーを入手できるのかを知っている人はいますか?

答え1

直接的な答えではなく、この部分がコミットに導入された部分だと明らかにしてgit blamegit log2c41d783Hrvoje Niksicというコミッタが作成しましたhniksic。彼のメールアドレスはwgetファイルにありますChangeLog(明らかな理由でここに投稿しないでください)。おそらく、その人がより適切な答えを与えることができる最高の人であろうので、その人に直接尋ねることをお勧めします。その過程で、それに合わせてマンページを更新するかどうか尋ねることもできます。 ;)

答え2

私の考えにはこの記事ではないかと思う。

デフォルトのSASを使用してウェブログから意味のあるデータを生成する

クラスCの範囲をブロックすることを議論する段落があります。

IPアドレスをコンポーネントに分割すると、IPアドレス範囲のフィルタリングが簡単になります。タイプBフィルタは、168.126.xx.xxなどの最初の2つのオクテットで動作します。これは上記のコード例の変数Onetwoです。クラスCの範囲はサーバー全体を対象としており、168.126.56.xxなどの4つのオクテットのうち3つを使用するため、より一般的に使用されます。上記のコード例では、UsrhostはWebログのTCP / IPアドレス値であるため、このフィールドは3です。

wgetユーザーエージェントの文字列ベースのブロックで述べたように:

ユーザーエージェント文字列を識別するために私たちが好む方法は、インデックス付きパターンマッチング機能を利用します。たとえば、

if index(lowcase(agentstr), 'keynote') or
index(lowcase(agentstr), 'sureseeker') or
index(lowcase(agentstr), 'wget') or

5番目の結果です2001年以来、「ログ分析wget」のGoogle検索

関連情報