次のsedコマンドがあります。
sed 's/\('\''\).*div><div>/,/'
'
一重引用符の間のすべての内容を取得div><div>
し、コンマで置き換えます,
。私が望むものに非常に近い動作します。ただし、一部の行には2行が含まれており、div><div>
私のコマンドには2行目が停止点になっているため、1行目から切り取ろうとしています。
より明確に説明するために、データを抽出するファイルの行は次のとおりです。
'>Person A</a></div><div>Teaching A</div></div></td><td width='50%'><div style='height: 50px; margin-bottom: 6px;'><div style='font-weight:bold'>Unknown or external</div><div>Teaching B<
Teaching A
私の出力が次のようになるまですべてを交換しようとしています,Teaching A
。しかし、私が得た結果は,Teaching B
。
div><div>
最後のインスタンスの代わりに最初のインスタンスを取得するようにsedコマンドをどのように操作できますか?
答え1
@ AdminBee:また、貪欲ではないマッチングを提案したいと思います。
@ Dr Little:あなたのソリューションは何ですか?私たちに教えてください。
私が正しく理解したなら、これもうまくいくでしょう:
sed 's/\('\''\).*<.a><div><div>/,/'
。
正規表現を使用してHTMLファイルを解析することはお勧めできません。たとえば、一度はvim + regexを使用して数十から数千のHTMLファイルを解析しましたが、これは時間に敏感な作業でした。なぜ?これは、実際のXML / HTMLパーサーを使用してテキストファイルを解析し、行とデータを抽出すると、タスクがより早く完了できるためです。