私のウェブサイトの一つをミラーリングしたいです。
残念ながら、このサイトではプレビューモードおよびGETパラメータは、ページがプレビューモードになるようにページのすべてのURLに追加する必要があります。
このGETパラメータはJavaScriptを介して追加されます。明らかにこれは重要ではありませんwget
。
wget
すべてのURLをクロールする前に、このコンテンツを直接追加できるように返されたHTMLをスクリプトに送信する方法はありますか?
答え1
あなたの質問は明確ではありません。私の理解は次のとおりです
- Webページを再帰的に検索しています。
- あなたのページには内部リンクが含まれています。
- これらのリンクをクリックすると、存在しないページにリンクされ、HTTP要求に追加のパラメータを追加するために各リンクを再構築しようとします。
wgetではこれを行うことができないと思います。使用することをお勧めします軽量水圧代わりに。という名前で出てきますねlwp-rget
再帰検索を実行します。行があります。
my $req = HTTP::Request->new(GET => $url);
この行の直前に停止するコードを追加してください。URL適切な場合は、次のようになります。
$url->query_form($url->query_form, "show_preview" => "yes");