読み込み完了後のクロールページのカーリング

読み込み完了後のクロールページのカーリング

完全に読み込むのに時間がかかる URL があります。ただし、カールを使用してリンクをhtmlにダウンロードすると、ページが完全にロードされる前にhtmlがリアルタイムでダウンロードされます。これはJavaScriptが完全に実行されたことを意味します。ページが完全に読み込まれるまでカールを停止するか、1分後にページのダウンロードを開始する方法を教えてください。

答え1

curlcurlJavaScriptがJavaScriptを理解していないため、JavaScriptが解釈されるまで「待機しません」。 JavaScriptは常にクライアント側(通常はJavaScriptエンジンがあるブラウザ、またはJavaScriptの実行方法を知っているブラウザ)で実行されます。

したがって、curlテキストブロックとして扱われ、そのまま残ります。

この動作はcurlLinuxコマンドラインに固有のものでwgetはなく、nclynxおよびその他)JavaScriptを理解していません。

linksバグのあるJavaScriptサポート(コンパイルされた場合)があるようですが、対話型使用のためのテキストブラウザです。

スクリプトが気に入らない場合は、見てください。PhantomJS

phantomJSはJavaScript APIを使用してスクリプト可能なヘッドレスWebKitです。 DOM処理、CSSセレクタ、JSON、Canvas、SVGなど、さまざまなWeb標準に対する迅速で基本的なサポートを提供します。

関連情報