Google画像検索結果ページを取得するためにターミナルでカールを使用してみましたが、Firefoxで「ページソースの表示」を使用して表示できる実際のHTMLソースを提供できませんでした。 「curl [url]」と「curl -L [url]」を試しました。どちらも私に「あなたのクライアントはこのサーバーからURLを取得する権限がありません」を含む短いHTMLソースコードを提供しました。シェルスクリプトを使用してFirefoxで利用可能なHTMLソースコードを取得するには?
端末から取得した短いHTMLの一部には、次のようなものがあります。
次の場所に掲載されているGoogle利用規約をご覧ください。 http://www.google.com/terms_of_service.html
この回答を間違っていたと思われる場合は、問題を報告してください。しかし、利用規約(http://www.google.com/terms_of_service.html)。あなたの電子メールで私達に送ってくださいみんなコードは以下の通りです。
答え1
エラーメッセージには壊れたリンクが含まれていますが、Google の現在の利用規約説明する:
当社のサービスを乱用しないでください。たとえば、当社のサービスを中断したり、サービスにアクセスする方法を使用しようとしないでください。私たちが提供するインターフェースとガイドラインに加えて。
(強調は私のもの)
彼らは何らかの理由であなたの要求を拒否します。彼らはあなたのIPアドレスで疑わしい活動を検出したかもしれませんが、あなたがcurl
通常のブラウザ(広告が表示されるブラウザ)以外のブラウザを使用していることを発見した可能性があります。
curl
一般ユーザーエージェント(例:http://www.browser-info.net/useragents)オプションを選択し-A
ましたが、これはまだ利用規約に違反しています。
答え2
私はこれがクッキーの問題(またはクッキーの欠如)である可能性が最も高いと思います。カールの-c [file]
クッキージャーオプションを使用して、クッキーをファイルに保存することもできます。画像検索を送信してすべてのCookieをに保存するには、「google.com」を表すカールリクエストを作成する必要があります。file
その後、2番目のクエリを使用して実際の検索に提供されたWeb URLを取得し、次のオプションを使用して保存されたCookieをロードする必要があります。-b [file]
。おそらくセッションID Cookieだけが必要です。
下のスクリーンショットでは、Googleが複数のCookie変数を割り当てていることがわかります。