wgetにrobots.txtの背後にあるcgiファイルをダウンロードさせる方法は?

wgetにrobots.txtの背後にあるcgiファイルをダウンロードさせる方法は?

たとえば -http://aok.heavengames.com/cgi-bin/aokcgi/display.cgi?action=t&fn=22

robots.txtの制限を克服する方法を見つけましたが、それでも何も読み取れないバイナリファイルだけをダウンロードするだけです。

答え1

wget --user-agent=Mozilla \
  "http://aok.heavengames.com/cgi-bin/aokcgi/display.cgi?action=t&fn=22"

答え2

~からwget マニュアルgnu.orgから

現在行っていることを知っていて、実際にロボット除外をオフにしたい場合は、.wgetrcでロボット変数を「off」に設定してください。 "wget-e robots = off url ..."など、-eスイッチを使用してコマンドラインから同じ効果を得ることができます。

答え3

--user-agent | robots = offを使用して何度も試しても出力がなく、出力の16進ダンプを確認することに成功しました。

成功しました。次の例を使用して、ファイル出力をHTML形式で送信します。

この試み:

wget --user-agent=Mozilla \ -e robots=off "http://aok.heavengames.com/cgi-bin/aokcgi/display.cgi?action=t&fn=22" -O -O cgi-converted-to-htmlfile.html

参考までにこれ--user-agent=Mozilla \-e ロボット=オフ みんな同じ行に

オプション-eロボット=オフ 尊重サーバーrobots.txtを無効にします。

オプション-O cgi-converted-to-htmlfile.html html ファイル形式のファイルを filename として出力します。

cgi-変換-to-htmlfile.html

幸運を祈り、これがあなたが望むものであることを願っています。

関連情報