一部のWebページでは、カールまたはLynxを介してパッチの生成を行っています。 HTMLコードを削除するためにbashでプログラムを書いたが(例えばlynx -source myurlを実行するとき)、問題は一部のページにJavaScriptがあり、削除されないことです。
Javascriptを使わずにCurlやLynxを使う方法はありますか?私は最初のインスタンスから私の本文データを取得するためにhtmlエンコーディングをしたいので、lynx -dumpオプションを使用しませんでした(代わりにlynx -sourceを使用しました)。
私はここであまりにも多くを求めていると思います。または、Cygwin環境で動作するJavaScriptストリッピングアプリケーションを知っている場合は、お知らせください。読んでくれてありがとう!
答え1
マニュアルページにソースコード変換についての言及はありません。curl
。だから私は答えが「いいえ」だと思います。
の場合、lynx
ほぼ同じ答えが得られます。<script>
タグをコメントとほぼ同じように処理します(閉じるタグを特別に処理します)。 2000年頃からそうだった。変更ログ)。
ただし、lynx
ダウンロードからコメント(およびスクリプト)を削除するオプションはまだありません。
あなたは使用することができますtidy
スクリプトを簡素化するためにファイル形式を再指定し、DIYスクリプトの削除ツールを使用します。たとえば、-wrap
より大きな値(ファイルサイズなど)を使用すると、すべてのHTMLタグが最初の列に配置されるため、単純なスクリプトで結果を解析して<script>
削除できます</script>
。