エスケープされたハッシュ文字を含むファイルからすべてのコメントを削除する方法

Question 1

a（ゼロ以上の空白が前にある）sedで始まる行を削除し、その後に単一のバックスラッシュがない（引用符¹の間にない場合にのみ）、それで始まるすべての文字列を削除できます。##

sed '/^[[:blank:]]*#/d
/["'\''].*#.*["'\'']/!{
s/\\\\#.*/\\\\/
s/\([^\]\)#.*/\1/
}' infile

^{1：この解決策は一行に引用符のペアがあると仮定します。}

Answer

a（ゼロ以上の空白が前にある）sedで始まる行を削除し、その後に単一のバックスラッシュがない（引用符¹の間にない場合にのみ）、それで始まるすべての文字列を削除できます。##

sed '/^[[:blank:]]*#/d
/["'\''].*#.*["'\'']/!{
s/\\\\#.*/\\\\/
s/\([^\]\)#.*/\1/
}' infile

^{1：この解決策は一行に引用符のペアがあると仮定します。}

Question 2

これはビューよりも複雑な問題ですが、正規表現の機能を超えているわけではありません。分析してみてください。行全体はコメントではなくテキストで構成され、オプションでコメントテキストが続きます。コメント以外のテキストに表示される内容：

, \, #,'を除くすべての文字"
\その後にランダムな文字が続きます。
andで始まり終わる引用符付き文字列"（次を含めることができます）
- \a) を除くすべての文字"
- B）の\後ろに任意の文字が続きます。
andで始まり終わる引用符付き文字列'（次を含めることができます）
- 削除する'

（両方の参照はUnixシェルの処理方法によって異なります。お好みに合わせて調整してください。）

これを正規表現に直接変換するには、次のものが必要です。

s/^([non comment])[comment]$/\1/
non comment = ([^\\"'#]|\\.|"([^\\"]|\\.)*"|'[^']*')*
              (11111111|222|3(AAAAAA|BBB)33|4444444)*
comment = #.*
Therefore
s/^(([^\\"'#]|\\.|"([^\\"]|\\.)*"|'[^']*')*)#.*$/\1/

sed正規表現の場合と文字の前にバックスラッシュを追加する必要があります。(|)

s/^\(\([^\\"'#]\|\\.\|"\([^\\"]\|\\.\)*"\|'[^']*'\)*\)#.*$/\1/

Bashには追加の引用符が必要です。

sed 's/^\(\([^\\"'\''#]\|\\.\|"\([^\\"]\|\\.\)*"\|'\''[^'\'']*'\''\)*\)#.*$/\1/'

grep -o編集：@StéphaneChazelasの答えを見るまで、これが存在することを知りませんでした。同じコア正規表現をこのアプローチに適用できます。egrepを使用すると、余分なバックスラッシュをほとんど実行する必要がなくなります。

grep -Eo '^([^\\"'\''#]|\\.|"([^\\"]|\\.)*"|'\''[^'\'']*'\'')*'
grep -Eo "^([^\\\\\"'#]|\\\\.|\"([^\\\\\"]|\\\\.)*\"|'[^']*')*"

これは意味が同じで（長さも同じです）、シェル引用の別の方法にすぎません。私は個人的に一重引用符が心配する必要がある唯一の文字なので、最初の方法を好むが、2番目の方法がより読みやすいことがわかります。、これは他のプログラミング言語で書くのと非常によく似ています。

正規表現は、一致しない引用符を含む行をどのように処理するかわからないことに注意することが重要です。正規表現とまったく一致しないので、sedコマンドは何も削除しませんが、grepコマンドはすべてを削除します。

Answer