質問に直接移動するには、コードの後ろにある太字のイタリック体の質問までスキップしてください。
紹介する:
wgetファイルとhtmlファイルの使用に問題があります。 Ubuntu 15.10を使用しています。
データベースからデータを収集しようとしていますが、「get」を使用して検索するのではなく「post」を使用します。これは、wgetに使用できるURLがないことを意味します。
ウェブサイトの「get」制限を迂回するために、「post」メソッドで検索するhtmlファイルを作成しました。これは、最初のhtmlファイルをロードして検索に「投稿」を使用するため、wgetがダウンロードしたいコンテンツをロードするのに時間がかかることを意味します。
私はwgetがhtmlファイルからhttpリンクを検索して動作することを知っていますが、wgetがhtmlページを1〜2秒間ロードしてからページをダウンロードし続ける方法はありますか?
パスワード:
以下は、私が望むページへのリンクとして機能するHTMLコードです。
<form name="PrimarySearch" id="PrimarySearch" action="http://www.dec.ny.gov/cfmx/extapps/derexternal/spills/details.cfm?pageid=2" method="post" onsubmit="return _CF_checkPrimarySearch(this)">
<p>
There are two ways to search the database: by spill number or by other search criteria.
Entering a spill number will provide the full record for one spill.
Entering other search criteria will provide a list of spills that meet the criteria,
with partial information about each.
</p>
<div>
<label for="spill_num" id="spill_num">
<strong>Search method #1:</strong> Enter a spill number:
</label>
<script type="text/javascript">
<!--
document.write('<input type="hidden" name="bjavascriptEnabled" value="1">');
-->
</script>
<input name="spill_num" id="spill_num" type="text" value="1409515"/>
<input type="hidden" name="pageID" value="2">
<input type="Submit" value="Submit">
</div>
</form>
<script>document.getElementById('PrimarySearch').submit();</script>
したがって、このhtmlファイルを実行すると得るそして-私、中にいるでしょう。HTMLコード、htmlファイルを実行しません。
質問:
wgetに私のhtmlファイルをURLとして使用してロードしてダウンロードさせることはできますか?
この資料ができるだけ早く必要なので、できるだけ早く回答していただければ幸いです。
ありがとうございます!
ハワロン
答え1
問題全体を解決した--post-fileと--post-dataに言及した@JeffSchallerに感謝します。
一般的な「公開」方法ページを使用できます(http://www.dec.ny.gov/cfmx/extapps/derexternal/spills/details.cfm?pageid=2)取得するには得るアクセスしたい値を入力しましたが、サイト検索によってブロックされた「get」メソッドを介してその値にアクセスすることはできません。以前使用したhtmlコードを放棄しました得るHTMLファイルは処理されません。
パスワード:
婦人声明:--no-parent、--convert-links、および--html-extensionなしでwgetを試しましたが、そのうちの1つ、一部、またはすべてが役に立ちました。得るローカルHTMLファイルでページ
wget --no-parent --convert-links --html-extension --post-data 'spill_num=1409515' http://www.dec.ny.gov/cfmx/extapps/derexternal/spills/details.cfm?pageid=2
これにより、ページがローカルのHTMLファイルにダウンロードされます。ページをインポートできますが、フォーマットされていないためにファイルが空白でレンダリングされる問題を修正しました。
ハワロン