必要なプレーンテキストとhtmlタグの混合ファイルがあります。 REGEXを使用すると、htmlタグを識別し、sedを使用して空の文字列に置き換えることができることを知っていますが、具体的に適用する方法はわかりません。
答え1
こだわらない場合は、sed
最善の方法はこれを行うことですlynx
。
lynx --dump <filename>.html
これにより、htmlコードが表示したい形式でhtmlファイルの内容が出力されます。唯一の条件は、ファイル名.html
または.htm
拡張子が必要です。
答え2
HTMLマークアップが1行に制限されている場合は、次のようになります。
sed 's/<[^>]*>//g'