Wgetコマンドは、ネットワークサーバー上のすべてのWebページの[リスト]を返します。

Wgetコマンドは、ネットワークサーバー上のすべてのWebページの[リスト]を返します。

www.example.com次のページを含むウェブサイトがあるとします。

www.example.com/page1
www.example.com/unknown
www.example.com/unknown

次の出力を生成するWgetコマンドはありますか?

page1
page2
page3

ウェブサイトの構造が次の場合:

www.example.com/xxxx/page1
www.example.com/xxxx/page2
www.example.com/xxxx/page3

本質的に、私はサーバーのIPアドレスを持っていて、興味のあるものの中からダウンロードできるものがあるかどうかを確認するためにサーバーに保存されているすべてのページを一覧表示できるようにしたいと思います。

たとえば、私はこれを行うことができ、wget -r www.example.com/page1私が興味を持っている他のディレクトリ(page2など)があるかどうかを知りたいと思います。page3

このオプションとは異なるオプションを見てみましたが、--spider楽しかったです。

答え1

クライアントではこれを行うことはできませんが、サイトマップを閲覧でき、時にはhttp://www.example.com/robots.txtファイルにはリストを含めることができます。 Googleにリストをリクエストする方法がある場合、またはリターンマシンに最後のリストがある場合があります。

答え2

ウェブサイト全体を再帰的にダウンロードするようにwgetに指示できますが、これは各ページのリンクを介して行われます。 page1、page2、page3があるかどうかわからない場合、その項目は検索されません。

正直、幸いなことに、HTTPはそれほど機能しません。

答え3

これは不可能です。 HTTPリクエスト方法はなく、HTTP検索リクエストは常に特定のURLをパラメータとして取得します。

答え4

Rensとfranciskusが述べたように、page1にはこれを行う方法がなく、唯一の機会はコピーしたいサイトがどのように設定されているかによって異なります。

ルートディレクトリにある可能性はほとんどありませんが、サブディレクトリ(存在すると仮定)はファイルリスト(一種のビジュアルFTP)を提供するように構成できます。しかし、ほとんどのウェブマスターが隠そうとすること、つまりサイトの内部の仕組みを利用することになります。

私はこれをうまく活用して存在すると確信していましたが、サイトナビゲーションでは見つけることができない情報を得ました。非常に少数のウェブサイトでのみ動作します。

関連情報