www.example.com
次のページを含むウェブサイトがあるとします。
www.example.com/page1
www.example.com/unknown
www.example.com/unknown
次の出力を生成するWgetコマンドはありますか?
page1
page2
page3
ウェブサイトの構造が次の場合:
www.example.com/xxxx/page1
www.example.com/xxxx/page2
www.example.com/xxxx/page3
本質的に、私はサーバーのIPアドレスを持っていて、興味のあるものの中からダウンロードできるものがあるかどうかを確認するためにサーバーに保存されているすべてのページを一覧表示できるようにしたいと思います。
たとえば、私はこれを行うことができ、wget -r www.example.com/page1
私が興味を持っている他のディレクトリ(page2
など)があるかどうかを知りたいと思います。page3
このオプションとは異なるオプションを見てみましたが、--spider
楽しかったです。
答え1
クライアントではこれを行うことはできませんが、サイトマップを閲覧でき、時にはhttp://www.example.com/robots.txtファイルにはリストを含めることができます。 Googleにリストをリクエストする方法がある場合、またはリターンマシンに最後のリストがある場合があります。
答え2
ウェブサイト全体を再帰的にダウンロードするようにwgetに指示できますが、これは各ページのリンクを介して行われます。 page1、page2、page3があるかどうかわからない場合、その項目は検索されません。
正直、幸いなことに、HTTPはそれほど機能しません。
答え3
これは不可能です。 HTTPリクエスト方法はなく、HTTP検索リクエストは常に特定のURLをパラメータとして取得します。
答え4
Rensとfranciskusが述べたように、page1にはこれを行う方法がなく、唯一の機会はコピーしたいサイトがどのように設定されているかによって異なります。
ルートディレクトリにある可能性はほとんどありませんが、サブディレクトリ(存在すると仮定)はファイルリスト(一種のビジュアルFTP)を提供するように構成できます。しかし、ほとんどのウェブマスターが隠そうとすること、つまりサイトの内部の仕組みを利用することになります。
私はこれをうまく活用して存在すると確信していましたが、サイトナビゲーションでは見つけることができない情報を得ました。非常に少数のウェブサイトでのみ動作します。