bash正規表現が\ bをサポートしていない理由はありますか？ [コピー]

Question 1

~によるとbashマニュアルページ、この=~演算子はPOSIX正規表現関数を使用しているようです。

演算子を使用すると、=~右側の文字列はPOSIX拡張正規表現パターンとして扱われ、それに応じて一致します（POSIXregcompおよび一般的に説明されているインタフェースを使用）。regexecregex(3)

メタ\bシーケンスはPerl正規表現構文POSIXの一部ではないため、Bashで使用されるライブラリはそれをサポートしていないようです。したがって、Bashでこれをサポートすることは、ライブラリを変更することを意味する可能性があり、これはしばしば深刻な副作用を引き起こします。

これは純粋に文法的要素に対応するために行われたようではありません。

Answer

~によるとbashマニュアルページ、この=~演算子はPOSIX正規表現関数を使用しているようです。

演算子を使用すると、=~右側の文字列はPOSIX拡張正規表現パターンとして扱われ、それに応じて一致します（POSIXregcompおよび一般的に説明されているインタフェースを使用）。regexecregex(3)

メタ\bシーケンスはPerl正規表現構文POSIXの一部ではないため、Bashで使用されるライブラリはそれをサポートしていないようです。したがって、Bashでこれをサポートすることは、ライブラリを変更することを意味する可能性があり、これはしばしば深刻な副作用を引き起こします。

これは純粋に文法的要素に対応するために行われたようではありません。

Question 2

まず、Bashに独自のRE実装があるのか、システムライブラリのRE実装を使用しているのかを確認してください。

しかし、そうです。\b一般に、Perl正規表現に由来する標準正規表現では使用できない他の拡張も多く含まれています。 GNUシステムは\sスペースと単語の文字をサポートしているようですが、数字はサポートしていませ\wん\d。なぜその奇妙なものを選ぶことにしたのかはわかりませんが、全体的に、みんなPerl RE機能はREエンジンをより複雑にすることができ、Perlファンはそれが好きですが、多くの標準ツール作成者はそれを望まないかもしれません。しかし、すべてではなく、これを追加し始めると、どこに線を引くべきかを決定することが問題になります。

とにかく、単語の境界は最初から非標準です。一部のシステムでは、\<および\>は左右の境界線に適用する必要がありますが、FreeBSDとMacではと[[:<:]]が必要です[[:>:]]。

偶然にも@steeldriverが述べたように、\b少なくとも私がテストしたときにGNUでも動作するようです。 Bashでは、シェルの解析プロセスによって特殊文字が難読化されるのを防ぐために、まずREを変数に保存する必要があります。

$ re='\bWORD\b'; if [[ WORD =~ $re ]]; then echo y; else echo n; fi
y
$ re='\<WORD\>'; if [[ WORD =~ $re ]]; then echo y; else echo n; fi
y
$ re='\bWORD\b'; if [[ WORDLESS =~ $re ]]; then echo y; else echo n; fi
n
$ re='\<WORD\>'; if [[ WORDLESS =~ $re ]]; then echo y; else echo n; fi
n

Answer

まず、Bashに独自のRE実装があるのか、システムライブラリのRE実装を使用しているのかを確認してください。

しかし、そうです。\b一般に、Perl正規表現に由来する標準正規表現では使用できない他の拡張も多く含まれています。 GNUシステムは\sスペースと単語の文字をサポートしているようですが、数字はサポートしていませ\wん\d。なぜその奇妙なものを選ぶことにしたのかはわかりませんが、全体的に、みんなPerl RE機能はREエンジンをより複雑にすることができ、Perlファンはそれが好きですが、多くの標準ツール作成者はそれを望まないかもしれません。しかし、すべてではなく、これを追加し始めると、どこに線を引くべきかを決定することが問題になります。

とにかく、単語の境界は最初から非標準です。一部のシステムでは、\<および\>は左右の境界線に適用する必要がありますが、FreeBSDとMacではと[[:<:]]が必要です[[:>:]]。

偶然にも@steeldriverが述べたように、\b少なくとも私がテストしたときにGNUでも動作するようです。 Bashでは、シェルの解析プロセスによって特殊文字が難読化されるのを防ぐために、まずREを変数に保存する必要があります。

$ re='\bWORD\b'; if [[ WORD =~ $re ]]; then echo y; else echo n; fi
y
$ re='\<WORD\>'; if [[ WORD =~ $re ]]; then echo y; else echo n; fi
y
$ re='\bWORD\b'; if [[ WORDLESS =~ $re ]]; then echo y; else echo n; fi
n
$ re='\<WORD\>'; if [[ WORDLESS =~ $re ]]; then echo y; else echo n; fi
n

bash正規表現が\ bをサポートしていない理由はありますか？ [コピー]

答え1

答え2

関連情報