URLのリストがありますが、すべて次のようになります。http://www.contratos.gov.co/consultas/detalleProceso.do?numConstancia=10-10-85225;.pdf ファイルはこのページ内で参照されます。 wgetまたはカールを使用してこのファイルをダウンロードする必要があります。
私はこれを試みます:
wget -r http://www.contratos.gov.co/consultas/detalleProceso.do?numConstancia=10-10-85225 -l2 --accept .pdf
そして
wget -r -l1 --no-parent -A ".pdf" http://www.contratos.gov.co/consultas/detalleProceso.do?numConstancia=10-10-85225
しかし、プロトコルエラーが発生します。
www.contratos.gov.co(www.contratos.gov.co) 解決中... 201.234.78.2 www.contratos.gov.co(www.contratos.gov.co)|201.234.78.2|:80です。 。つながりました。 HTTP要求が送信され、応答を待っています... 200 OK長さ:指定されていません[text/html] www.contratos.gov.co/consultas/detalleProceso.do?numConstancia=10-10-85225:プロトコルエラー
「www.contratos.gov.co/consultas/detalleProceso.do?numConstancia=10-10-85225」に書き込めません(プロトコルエラー)
URLを解析してから、最初のページにリンクされているpdfファイルをダウンロードするようにwgetにコマンドするためにどのフラグを使用できますか?
答え1
WgetとCurlは、HTML文書のアンカータグ内のリンクのみを解析します。
あなたが参照するページは、ドキュメントをダウンロードするためのリンクと一緒にPOSTメソッドを使用します。
ファイルをダウンロードし、すべてのリンクを手動で解決する必要があります。これはwgetがあなたのためにすることができないことです。
編集:しかし、なぜプロトコルエラーが発生するのかわかりません。 --debugオプションを使用して同じコマンドを実行し、出力を表示できる場所に貼り付けますか?