HTMLパーサーを介してHTMLから値を抽出する[重複]

HTMLパーサーを介してHTMLから値を抽出する[重複]

grep最初は、HTMLファイルで/を直接使用する方法について問い合わせました。awk私はいくつかのフィードバックを受けましたが、人々は完全なHTMLを持っていなかったので、提案された解決策が失敗したことを発見しました。

一部の人々は、HTMLの解析がより良い選択になるだろうと述べた。私は標準のLinux / Debian Wheezyを使ってRaspberry Piを使っています。

言及されたHTMLはここにあります。シンプルなHTMLです。しかし、助けを得るためには、ファイル全体を見ることが重要です。

https://www.dropbox.com/s/9jdgzen2hwjxhjp/main.htm

したがって、実行する必要がある作業は次のとおりです。

  • PplusとPminus(18.0000と0.00000)の2つの値を抽出して提供し、SUMを提供します。
  • 両方の値は、生成されたエネルギーP-とネットワークP +から引き出されたエネルギー/電力を提供するスマートメーター(エネルギーメーター)から来ます。
  • P - 太陽があり、太陽光発電所が動作して18Wが夜に動作する場合、0.0000は太陽がないため電力が発生しないことを意味します。ちょうどいくつかの背景情報を提供することです。

元のスレッドで更新してサポートリクエストを試しましたが、過去数日間に新しいフィードバックがなかったため、もう誰もそれを見ることができないようです。私は今この質問をここの専門家に戻すよう努めています。

答え1

このサンプルHTMLファイルを確認してください。

<DIV ID="idButtonDiv" STYLE="top:143px; left:0px;" ALIGN="CENTER">
<TABLE CELLSPACING="0" CELLPADDING="0" BORDER="0"><TR><TD ID="idButtonTd">
18.000

</TD></TR></TABLE>
</DIV>

解析するのは簡単ではないようです。

関連情報