返されたHTMLを前処理するためにwgetに一種のフックを追加できますか?

返されたHTMLを前処理するためにwgetに一種のフックを追加できますか?

私のウェブサイトの一つをミラーリングしたいです。

残念ながら、このサイトではプレビューモードおよびGETパラメータは、ページがプレビューモードになるようにページのすべてのURLに追加する必要があります。

このGETパラメータはJavaScriptを介して追加されます。明らかにこれは重要ではありませんwget

wgetすべてのURLをクロールする前に、このコンテンツを直接追加できるように返されたHTMLをスクリプトに送信する方法はありますか?

答え1

あなたの質問は明確ではありません。私の理解は次のとおりです

  • Webページを再帰的に検索しています。
  • あなたのページには内部リンクが含まれています。
  • これらのリンクをクリックすると、存在しないページにリンクされ、HTTP要求に追加のパラメータを追加するために各リンクを再構築しようとします。

wgetではこれを行うことができないと思います。使用することをお勧めします軽量水圧代わりに。という名前で出てきますねlwp-rget再帰検索を実行します。行があります。

my $req = HTTP::Request->new(GET => $url);

この行の直前に停止するコードを追加してください。URL適切な場合は、次のようになります。

$url->query_form($url->query_form, "show_preview" => "yes");

関連情報