2つのパターン間の文字列の取得中にエラーが発生しました。

Question 1

HTML の解析に正規表現を使用せず、代わりに適切な HTML パーサーを使用してください。

コンパイル理論によると、HTMLは正規表現ベースの解析を使用できません。有限状態マシン。 HTMLの階層のため、次のものを使用する必要があります。プッシュダウンオートマトン操作して左利き受容体ツールに似た構文の使用アクリル。

代わりに、正しい作業に適したツールを使用する必要があります。

...これは仕事です。xmllint:

渡す文字列一致:

string="Sorcery"
xmllint --html --xpath "//p[contains(text(), '$string')]/text()" file_or_URL

N番目の<p>ノードを介して（ここでNは1です）：

xmllint --html --xpath "//p[1]/text()" file_or_URL

Answer

HTML の解析に正規表現を使用せず、代わりに適切な HTML パーサーを使用してください。

コンパイル理論によると、HTMLは正規表現ベースの解析を使用できません。有限状態マシン。 HTMLの階層のため、次のものを使用する必要があります。プッシュダウンオートマトン操作して左利き受容体ツールに似た構文の使用アクリル。

代わりに、正しい作業に適したツールを使用する必要があります。

...これは仕事です。xmllint:

渡す文字列一致:

string="Sorcery"
xmllint --html --xpath "//p[contains(text(), '$string')]/text()" file_or_URL

N番目の<p>ノードを介して（ここでNは1です）：

xmllint --html --xpath "//p[1]/text()" file_or_URL

Question 2

婦人声明：

@sputnickの答えは明らかに正しいアプローチです。（私はxmllintが好きです。複数のXML / HTML操作に使用します。xpathオプションについて教えてくれてありがとう！）

しかし、ワンタイムスクリプトでは、あまり強力でない他の技術も有用です。

正規表現を使用して最初の段落を取得する（Perl）

perl -n0e 'm!<p.*?>(.*?)</p>!s   and print $1'

\nまたは '' を削除する場合

perl -n0e 'm!<p.*?>(.*?)</p>!s   and print $1 =~ s/\n//gr'

Answer

婦人声明：

@sputnickの答えは明らかに正しいアプローチです。（私はxmllintが好きです。複数のXML / HTML操作に使用します。xpathオプションについて教えてくれてありがとう！）

しかし、ワンタイムスクリプトでは、あまり強力でない他の技術も有用です。

正規表現を使用して最初の段落を取得する（Perl）

perl -n0e 'm!<p.*?>(.*?)</p>!s   and print $1'

\nまたは '' を削除する場合

perl -n0e 'm!<p.*?>(.*?)</p>!s   and print $1 =~ s/\n//gr'

関連情報