
wget
を使用してWebサイトからいくつかのファイルをダウンロードしようとしています。ただし、ファイルの仮想位置は実際の場所を表すことはできません。
たとえば、ファイルリンクが、そのフォルダにまたは/またはというhttp://file.site.com/1746534/relativity_theory_explained.txt
実際のフォルダがあるという意味ではありません。実際にブラウザからアクセスするとHTTP 403が表示されるので、わかりません。http://file.site.com/
http://file.site.com/1746534/
relativity_theory_explained.txt
http://file.site.com/
http://file.site.com/1746534/relativity_theory_explained.txt
ブラウザから完全にアクセスするとファイルを見ることができます。ただし、ダウンロードしたいファイルの名前は、次のパターンのパス以外に何かを推測することはできません。http://file.site.com/some_number/some_name.txt
BashまたはPythonを使用してこれらのファイルをダウンロードする方法はありますか?私が知っているのはパスの始まりだけです。
私が試したことは次のとおりです。
wget \
--recursive \
--no-clobber \
--convert-links \
--restrict-file-names=windows \
--domains site.com \
-e robots=off \
-U 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:37.0) Gecko/20100101 Firefox/37.0' \
--accept "*.txt" \
--accept "*.html" \
--no-parent \
www.site.com file.site.com
リンク(www.site.com/...)を含むHTMLファイルをダウンロードします。リンク(file.site.com/...)が指すファイルはダウンロードされません。厳密に言えば、file.site.com
ブラウザは403に移動します。私が使用するパラメータは--domains site.com --accept ".txt" --accept ".html" www.site.com file.site.com
htmlではなくtxtファイルに興味がありますが、リンクを取得するためにhtmlもダウンロードされました。