sedを使用してファイルからhtmlタグを削除する方法は?

sedを使用してファイルからhtmlタグを削除する方法は?

必要なプレーンテキストとhtmlタグの混合ファイルがあります。 REGEXを使用すると、htmlタグを識別し、sedを使用して空の文字列に置き換えることができることを知っていますが、具体的に適用する方法はわかりません。

答え1

こだわらない場合は、sed最善の方法はこれを行うことですlynx

lynx --dump <filename>.html

これにより、htmlコードが表示したい形式でhtmlファイルの内容が出力されます。唯一の条件は、ファイル名.htmlまたは.htm拡張子が必要です。

答え2

HTMLマークアップが1行に制限されている場合は、次のようになります。

sed 's/<[^>]*>//g'

答え3

html2text1)(2)逆。 HTMLを解析するのは思ったより難しいです。

関連情報