動的ページを取得するためにwgetを使用しようとしましたが、成功しませんでした。

Question

Appleはデフォルトでhtmlファイルのダウンロードを拒否します。私のコンピュータに指定したコマンドを使用しました。出力を注意深く見ると、次のような結果が得られます。

Loading robots.txt; please ignore errors.
--2014-05-24 10:43:50--  https://itunes.apple.com/robots.txt
Connecting to itunes.apple.com|23.206.210.217|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 234 [text/plain]
Saving to: `robots.txt'

したがって、これ我々は答えを無視することができますロボット.txt-e robots=offコマンドに使用してファイルを作成します。

Wget基本的に尊重robots.txt 標準検索エンジンと同様に、クロールページの場合、archive.orgの場合は/web/サブディレクトリ全体を許可しません。オーバーライドするには-e robots= off、

そのため、これを追加するようにコマンドを変更し、-e robots= offコマンドを再実行したときに次のような出力が得られました。

Connecting to itunes.apple.com|23.204.162.217|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/html]
Saving to: `id854897303?mt=12.html'

    [ <=>                                                                                                                                                  ] 33,456      --.-K/s   in 0.001s  

2014-05-24 10:48:38 (30.1 MB/s) - `id854897303?mt=12.html' saved [33456]

Removing id854897303?mt=12.html since it should be rejected.

ご覧のとおり、ファイルのダウンロードはAppleによってブロックされており、これについて私たちができることはありません。

編集する：なしで-e robots=offhtmlファイルをダウンロードできません。また、もともとwgetも拒否されたと言われています。だからAppleはwgetダウンロードを許可していないようです。

Answer 1