時にはウェブサイトのディレクトリ構造だけを知りたい場合もありますが、ファイル自体は重要ではありません。私は彼らの名前が欲しい。各項目が空のダミーファイルであるミラーに似ています。
もちろん、wget -r
スクリプトを実行して実行してすべてのファイルを削除するのはうまくいきますが、サーバーや帯域幅には悪いので、無駄な感じがします。より効率的ですが、あまりエレガントなアプローチは、大きなファイルが見つかるたびにプロセスを手動で停止して再起動するか、非常に短いタイムアウトを設定することです。少なくとも、これはダウンロードする必要があるデータ量を大幅に削減します。
私の質問は:コンテンツをダウンロードせずにwgetでファイルを生成させることができますか?それとも仕事に間違ったツールを使用していますか?
答え1
リクエストに応じて回答を投稿:
この--spider
オプションを使用してください。
wget -r -nv --spider http://example.com
その後、出力からサイト構造を解析できます。画像など、リンクが含まれている可能性がないファイルはダウンロードされません。