ウェブサイトをオフラインでダウンロードする場合、リンクのGET変数を無視する

ウェブサイトをオフラインでダウンロードする場合、リンクのGET変数を無視する

簡単に言えば、私がダウンロードしたサイトへのすべてのリンクはで始まります&sid=335345346fdsfdsfs。これは変わり続け、index.html他の多くのページでも同じコンテンツが生成されます。

こんな問題を解決した人がいるかどうか疑問に思います。私にとって必要なのはですsed -e 's/&sid=.*$//g'

  1. したがって、ツールはインターネットからリンクを取得します。http://foo.bar/&sid=yada
  2. 前処理http://foo.bar
  3. すでに存在することを確認し、それに応じてダウンロードまたはスキップします。
  4. ダウンロードする場合は、s/&sid=.*$//g同じ操作を実行してダウンロード内のリンクを置き換えます。.html

サイト名に含まれているGET変数を無視する賢い方法が既にある場合は歓迎します。

関連情報