多くの画像を含むWebフォーラムからスレッドをダウンロードするためにwgetを使用しようとしています。イメージは別のドメインでホストされているため、-Hフラグを使用してイメージをダウンロードできます。私が使用する完全なwgetコマンドは次のとおりです。
wget -p -H -erobots=off https://example.com/
試してみると、メイン画像を除くほぼすべてがダウンロードされます。これは私が試しているスレッドの1つの例です。ダウンロード。
私は何が間違っていましたか?
答え1
これはサイト固有の問題です。走る
wget -H -p -r --user-agent="Mozilla/5.0" -nd --accept jpg,png https://suzuki88.mforos.com/194412/11461305-brico-con-mi-nuevo-suzuki-en-proceso-de-transformacion-muchas-fotos/
以下の内容を含むrobots.txt.*ファイルのリストを教えてください。
User-agent: *
Disallow:
これは基本的に、ウェブサイトがあなたをウェブサイトのいくつかのセキュリティホールをパッチしようとするボットと考えていることを意味します。ルールは、*
(すべての)ロボットがサイトのどの部分にもアクセスすることを拒否することです。