
このコマンドを使用して、wgetを介してすべての画像とJavaScriptを含むiTunesページを取得します。私が望むのは、このページとページに含まれるすべての画像とスクリプトだけです。
wget -kKErpNF --no-check-certificate --html-extension -nd -A jpg,jpeg,png,js -nH https://itunes.apple.com/us/app/megamilhoes-megasena-gerador/id854897303?mt=12
このコマンドはほとんど機能しますが、ページは動的でブラウザに組み込まれているため、ページ自体を保存しません。ページにhtml/html拡張子がありません。どうやって入手できますか?
--html-extension
何の影響もありませんでした。私はOSX Mavericksを使用しています。
答え1
Appleはデフォルトでhtmlファイルのダウンロードを拒否します。私のコンピュータに指定したコマンドを使用しました。出力を注意深く見ると、次のような結果が得られます。
Loading robots.txt; please ignore errors.
--2014-05-24 10:43:50-- https://itunes.apple.com/robots.txt
Connecting to itunes.apple.com|23.206.210.217|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 234 [text/plain]
Saving to: `robots.txt'
したがって、これ我々は答えを無視することができますロボット.txt-e robots=off
コマンドに使用してファイルを作成します。
Wget
基本的に尊重robots.txt 標準検索エンジンと同様に、クロールページの場合、archive.orgの場合は/web/サブディレクトリ全体を許可しません。オーバーライドするには-e robots= off
、
そのため、これを追加するようにコマンドを変更し、-e robots= off
コマンドを再実行したときに次のような出力が得られました。
Connecting to itunes.apple.com|23.204.162.217|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/html]
Saving to: `id854897303?mt=12.html'
[ <=> ] 33,456 --.-K/s in 0.001s
2014-05-24 10:48:38 (30.1 MB/s) - `id854897303?mt=12.html' saved [33456]
Removing id854897303?mt=12.html since it should be rejected.
ご覧のとおり、ファイルのダウンロードはAppleによってブロックされており、これについて私たちができることはありません。
編集する:なしで-e robots=off
htmlファイルをダウンロードできません。また、もともとwgetも拒否されたと言われています。だからAppleはwget
ダウンロードを許可していないようです。