簡単に言えば、私がダウンロードしたサイトへのすべてのリンクはで始まります&sid=335345346fdsfdsfs
。これは変わり続け、index.html
他の多くのページでも同じコンテンツが生成されます。
こんな問題を解決した人がいるかどうか疑問に思います。私にとって必要なのはですsed -e 's/&sid=.*$//g'
。
- したがって、ツールはインターネットからリンクを取得します。
http://foo.bar/&sid=yada
- 前処理
http://foo.bar
- すでに存在することを確認し、それに応じてダウンロードまたはスキップします。
- ダウンロードする場合は、
s/&sid=.*$//g
同じ操作を実行してダウンロード内のリンクを置き換えます。.html
サイト名に含まれているGET変数を無視する賢い方法が既にある場合は歓迎します。