仮想Webパスから特定の種類のすべてのファイルをインポートする方法は？

2024-5-23 • tag-icon

wgetを使用してWebサイトからいくつかのファイルをダウンロードしようとしています。ただし、ファイルの仮想位置は実際の場所を表すことはできません。

たとえば、ファイルリンクが、そのフォルダにまたは/またはというhttp://file.site.com/1746534/relativity_theory_explained.txt実際のフォルダがあるという意味ではありません。実際にブラウザからアクセスするとHTTP 403が表示されるので、わかりません。http://file.site.com/http://file.site.com/1746534/relativity_theory_explained.txthttp://file.site.com/

http://file.site.com/1746534/relativity_theory_explained.txtブラウザから完全にアクセスするとファイルを見ることができます。ただし、ダウンロードしたいファイルの名前は、次のパターンのパス以外に何かを推測することはできません。http://file.site.com/some_number/some_name.txt

BashまたはPythonを使用してこれらのファイルをダウンロードする方法はありますか？私が知っているのはパスの始まりだけです。

私が試したことは次のとおりです。

wget \
 --recursive \
 --no-clobber \
 --convert-links \
 --restrict-file-names=windows \
 --domains site.com \
 -e robots=off \
 -U 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:37.0) Gecko/20100101 Firefox/37.0' \
 --accept "*.txt" \
 --accept "*.html" \
 --no-parent \
     www.site.com file.site.com

リンク（www.site.com/...）を含むHTMLファイルをダウンロードします。リンク（file.site.com/...）が指すファイルはダウンロードされません。厳密に言えば、file.site.comブラウザは403に移動します。私が使用するパラメータは--domains site.com --accept ".txt" --accept ".html" www.site.com file.site.com

htmlではなくtxtファイルに興味がありますが、リンクを取得するためにhtmlもダウンロードされました。

関連情報