httrack

フレーム付きウェブサイトを繰り返しダウンロード
httrack

フレーム付きウェブサイトを繰り返しダウンロード

フレーム内のリンクとそのフレーム内の追加リンクを使用するWebサイトの特定のページを繰り返しダウンロードすることはできません。オンライン中国語の語源辞書である中文网からのものです。 一般的なページのHTMLは次のとおりです。 <FRAMESET BORDER=1 FRAMEBORDER=1 ROWS=40,*> <FRAME ALIGN=LEFT SRC=http://zhongwen.com/main.htm SCROLLING=no MARGINHEIGHT=0 FRAMEBORDER=no NAME=mainFrame>...

Admin

PHPでwgetまたはCURLを使用してURLにアスタリスク*を含むWebページスナップショットを取得する方法は? (Wayback Machine archive.orgの問題)
httrack

PHPでwgetまたはCURLを使用してURLにアスタリスク*を含むWebページスナップショットを取得する方法は? (Wayback Machine archive.orgの問題)

Wayback Machine(archive.org)の次のページには、URLにアスタリスク*があります。 https://web.archive.org/web/*/https://www.nasa.gov/ CURLまたはwgetの両方がページを掻き取ることを許可しません。私は最新バージョンのLinux Mint(2018)を使用しています。 PHPでwgetまたはCURLを使用してURLにアスタリスク*を持つWebページのスナップショットを取得する方法、具体的にhttps://web.archive.org/web/*/https://www.n...

Admin

ウェブサイトをオフラインでダウンロードする場合、リンクのGET変数を無視する
httrack

ウェブサイトをオフラインでダウンロードする場合、リンクのGET変数を無視する

簡単に言えば、私がダウンロードしたサイトへのすべてのリンクはで始まります&sid=335345346fdsfdsfs。これは変わり続け、index.html他の多くのページでも同じコンテンツが生成されます。 こんな問題を解決した人がいるかどうか疑問に思います。私にとって必要なのはですsed -e 's/&sid=.*$//g'。 したがって、ツールはインターネットからリンクを取得します。http://foo.bar/&sid=yada 前処理http://foo.bar すでに存在することを確認し、それに応じてダウンロードまたは...

Admin

ミラースタック交換には外部ミラーが含まれます。
httrack

ミラースタック交換には外部ミラーが含まれます。

このスクリプトは、影響を受けるすべての問題を含む、オフラインで読み取ることができるすべてのアクティブページを保持するミラーフォルダを作成します。 #!/bin/bash USERNAME=rubo77 MAXDEPTH=2 # increase this if you want to backup more of your history USERID=1047481 mkdir -p mirror_$USERNAME cd mirror_$USERNAME/ TEMP=/tmp/tmp.stackexchange_export wget http://...

Admin