私は以下を試しました:
wget -nd -r -l1 -A gz http://www.example.com/products
これにより、次のファイルのみが保存されます.txt
。
User-agent: * Disallow: /
一方、
wget -r http://www.example.com/products/*.gz
それは単に動作しません。
他のどのコマンドを試すべきですか?
答え1
最初のコマンドは大丈夫に見えますが、他の人がすでに話したようなものです。 Webサイトの所有者は、検索エンジン(または同様のWebスパイダー、wget)が自分のWebサイトから離れていることを望むrobots.txtを配置しました(不要なトラフィックを防ぐか、他の理由)。 wgetはデフォルトでこれを尊重します。info wget
.wgetrcの調整可能なロボット関連機能(-e …
コマンドラインオプションで設定することもできます)を見つけるには、wgetのマニュアル(第9章:付録)のセクション9.1を参照してください。