空白の Grep テキスト

Question 1

拡張正規表現を使用してSectionキーワードを固定し、その後に来ないすべての項目を取得します<。

$ grep -E -o 'Section [0-9]+:[^<]*' < file.txt
Section 1: Plan your day, write out your plan

Perlを使用して周辺部分を固定するのが最も簡単な方法なので、これがオプションの場合：

$ perl -lne 'print $1 if m,<span>(Section \d+:.*?)</span>,' < file.txt
Section 1: Plan your day, write out your plan

（同様の操作を実行するために使用できるいくつかの方法がありますが、grep -P読みにくいです。）

Answer

拡張正規表現を使用してSectionキーワードを固定し、その後に来ないすべての項目を取得します<。

$ grep -E -o 'Section [0-9]+:[^<]*' < file.txt
Section 1: Plan your day, write out your plan

Perlを使用して周辺部分を固定するのが最も簡単な方法なので、これがオプションの場合：

$ perl -lne 'print $1 if m,<span>(Section \d+:.*?)</span>,' < file.txt
Section 1: Plan your day, write out your plan

（同様の操作を実行するために使用できるいくつかの方法がありますが、grep -P読みにくいです。）

Question 2

HTMLが有効なXMLの場合は、xmlstarletそれを使用して適切な要素値を選択できます。

xmlstarlet sel -t -v '//span' -n file.html
Section 1: Plan your day, write out your plan

より多くのページ構造がなければ、より良いXPath（）を提供することはできません//span。しかし、span例えば。div//div/span

Answer

HTMLが有効なXMLの場合は、xmlstarletそれを使用して適切な要素値を選択できます。

xmlstarlet sel -t -v '//span' -n file.html
Section 1: Plan your day, write out your plan

より多くのページ構造がなければ、より良いXPath（）を提供することはできません//span。しかし、span例えば。div//div/span

Question 3

sum以外の文字シーケンスと一致させたいと思うので、次のように<します。> <number>:

grep -Po '[^<>]* \d+:[^<>]*'

Answer

sum以外の文字シーケンスと一致させたいと思うので、次のように<します。> <number>:

grep -Po '[^<>]* \d+:[^<>]*'

Question 4

Perl Look(ahead|behind) が役に立ちます。

grep -Po "(?<=>).+(?=</)" yourfile

これはhtmlタグ間のすべてのエントリと一致し、そのタグを削除します。

Answer

Perl Look(ahead|behind) が役に立ちます。

grep -Po "(?<=>).+(?=</)" yourfile

これはhtmlタグ間のすべてのエントリと一致し、そのタグを削除します。

関連情報