文字列リストを小文字に変更

Question 1

文字列リストにデフォルトのBREメタ文字以外にGNU sedメタ文字が含まれていないとします。+

$ # create substitute command for each line
$ sed 's/.*/s|"&"|\\L\&|gi/' f1
s|"+stringa +Dog +Cat"|\L&|gi
s|"+cat +Tux +elephant"|\L&|gi

$ # pass those commands as sed script
$ sed -f <(sed 's/.*/s|"&"|\\L\&|gi/' f1) ip.csv
"123456 Abc","+Stringx +123","something"
"23456 dEf","+cat +tux +elephant","Other something"
"34524 xyz","+stringa +dog +cat","third something"

$ # or save them in a file and use
$ sed 's/.*/s|"&"|\\L\&|gi/' f1 > f2
$ sed -f f2 ip.csv

\L文字列を小文字に変換
gi大文字と小文字を区別せずに一致するように、1行のすべての項目を置き換えるために使用されます。

持っていない場合GNU sed

$ # \Q to quote metacharacters
$ # but will have issues if you have \ or $ or @
$ sed 's/.*/s|\\Q"&"|\\L$\&|gi;/' f1
s|\Q"+stringa +Dog +Cat"|\L$&|gi;
s|\Q"+cat +Tux +elephant"|\L$&|gi;

$ perl -p <(sed 's/.*/s|\\Q"&"|\\L$\&|gi;/' f1) ip.csv 
"123456 Abc","+Stringx +123","something"
"23456 dEf","+cat +tux +elephant","Other something"
"34524 xyz","+stringa +dog +cat","third something"

f1Stéphane Chazelasが指摘したように、コンテンツが制御されていないと、コード挿入の脆弱性が発生する可能性があります。

Answer

文字列リストにデフォルトのBREメタ文字以外にGNU sedメタ文字が含まれていないとします。+

$ # create substitute command for each line
$ sed 's/.*/s|"&"|\\L\&|gi/' f1
s|"+stringa +Dog +Cat"|\L&|gi
s|"+cat +Tux +elephant"|\L&|gi

$ # pass those commands as sed script
$ sed -f <(sed 's/.*/s|"&"|\\L\&|gi/' f1) ip.csv
"123456 Abc","+Stringx +123","something"
"23456 dEf","+cat +tux +elephant","Other something"
"34524 xyz","+stringa +dog +cat","third something"

$ # or save them in a file and use
$ sed 's/.*/s|"&"|\\L\&|gi/' f1 > f2
$ sed -f f2 ip.csv

\L文字列を小文字に変換
gi大文字と小文字を区別せずに一致するように、1行のすべての項目を置き換えるために使用されます。

持っていない場合GNU sed

$ # \Q to quote metacharacters
$ # but will have issues if you have \ or $ or @
$ sed 's/.*/s|\\Q"&"|\\L$\&|gi;/' f1
s|\Q"+stringa +Dog +Cat"|\L$&|gi;
s|\Q"+cat +Tux +elephant"|\L$&|gi;

$ perl -p <(sed 's/.*/s|\\Q"&"|\\L$\&|gi;/' f1) ip.csv 
"123456 Abc","+Stringx +123","something"
"23456 dEf","+cat +tux +elephant","Other something"
"34524 xyz","+stringa +dog +cat","third something"

f1Stéphane Chazelasが指摘したように、コンテンツが制御されていないと、コード挿入の脆弱性が発生する可能性があります。

Question 2

と一緒にperl、それぞれが欲しいと仮定言葉小文字に変換する最初のファイルから：

perl -pe '
 BEGIN {local $/ = undef; $regex = join "|", map qr{\Q$_\E}i, split " ", <>}
 s/$regex/\L$&/g' file1.words file2.csv

local $/ = undefBEGINブロックのレコード区切り文字を未定義のままにして、単一の呼び出しで最初の<>ファイル（file1.words）全体をそのブロックに飲み込むようにします。空白に分割し（と同じ方法でsplit " "）、結果の単語をインポートした後の単語と比較します。perlawk -F " "awk|正規表現参照大文字と小文字を区別しないように設定してください。

(?i:word1)|(?i:word2)|...したがって、残りのコードで2番目のファイルのすべての行に適用するのと同様の巨大な正規表現があります。

すべての文字列についてワイヤー最初のファイルでは、次のように単純化できます。

perl -pe '
 BEGIN {chomp (@strings = <STDIN>); $regex = join "|", map qr{\Q$_\E}i, @strings}
 s/$regex/\L$&/g' < file1.strings file2.csv

ここでは、引数として渡すのではなく、標準入力として最初のファイルを開きます。<STDIN>区切り文字を削除しchomp、上記のように連結した行のリストを返します|。

-Mopen=localeASCII文字に制限されない場合は、このオプションを追加してください。

Answer