UNIXコマンドを使用してHTMLタグから特定のURLを抽出する方法

Question

XML/HTMLパーサーを使用することは、XML/HTMLデータを操作する正しい方法です。

sed 's/&/&amp;/g' yourfile | xmlstarlet sel -t -v '//a[div/text() = "News"]/@href' -n

出力：

http://www.rediff.com/news

sed 's/&/&/g'- アンパサンドを&特殊文字でHTMLエンティティに変換
//a[div/text() = "News"]/@href- xpath式、ラベルにテキストを含む子ノードがある場合は、ラベルhrefの属性値を抽出します。adivNews

Answer 1

XML/HTMLパーサーを使用することは、XML/HTMLデータを操作する正しい方法です。

sed 's/&/&amp;/g' yourfile | xmlstarlet sel -t -v '//a[div/text() = "News"]/@href' -n

出力：

http://www.rediff.com/news

sed 's/&/&/g'- アンパサンドを&特殊文字でHTMLエンティティに変換
//a[div/text() = "News"]/@href- xpath式、ラベルにテキストを含む子ノードがある場合は、ラベルhrefの属性値を抽出します。adivNews

関連情報