sed 文字列に無効な文字が含まれています

Question 1

これにより、正しい正規表現が生成されます。

a="$(printf '%s' {a..z} {A..Z} {0..9} - )"
b="_*+ßäöü()%@€&=."

regex="[^$b$a]"
replaceChar="_"

その後、次のように動作します。

line="testﬂŒÆ˘ˆı››◊‹ıÓÌˇˆÁÓˆﬂÌˆ™ˇÏˆıÍÓÌıÓWÌtest"
echo "$line" | sed -e "s/${regex}/${replaceChar}/g"

test_______________________________W_test

興味深いのは、LANG=Cコマンドが失敗した場合です。次の単純な正規表現を使用しても：

$ (LANG=C; echo "testﬂŒÆtest" | sed -e "s/[^tesæ]/_/g")
test_____�_test

シンボルが何であるかを確認するには：

$ (LANG=C; echo "testﬂŒÆtest" | sed -e "s/[^tesæ]/_/g")|od -An -tcx1
   t   e   s   t   _   _   _   _   _ 303   _   t   e   s   t  \n
  74  65  73  74  5f  5f  5f  5f  5f  c3  5f  74  65  73  74  0a

つまり、303です。長い文字列についても繰り返されます。たぶんそれがあなたが見ているものかもしれません。

Answer

これにより、正しい正規表現が生成されます。

a="$(printf '%s' {a..z} {A..Z} {0..9} - )"
b="_*+ßäöü()%@€&=."

regex="[^$b$a]"
replaceChar="_"

その後、次のように動作します。

line="testﬂŒÆ˘ˆı››◊‹ıÓÌˇˆÁÓˆﬂÌˆ™ˇÏˆıÍÓÌıÓWÌtest"
echo "$line" | sed -e "s/${regex}/${replaceChar}/g"

test_______________________________W_test

興味深いのは、LANG=Cコマンドが失敗した場合です。次の単純な正規表現を使用しても：

$ (LANG=C; echo "testﬂŒÆtest" | sed -e "s/[^tesæ]/_/g")
test_____�_test

シンボルが何であるかを確認するには：

$ (LANG=C; echo "testﬂŒÆtest" | sed -e "s/[^tesæ]/_/g")|od -An -tcx1
   t   e   s   t   _   _   _   _   _ 303   _   t   e   s   t  \n
  74  65  73  74  5f  5f  5f  5f  5f  c3  5f  74  65  73  74  0a

つまり、303です。長い文字列についても繰り返されます。たぶんそれがあなたが見ているものかもしれません。

Question 2

コレクションがよくわからない場合（またはその補足）、私は通常否定、特に範囲を信じていません。私はあなたの醜い文字列のほとんどの文字を知らず、それがどこから来たのか、私のコンピュータが興味を持っているのかわかりません。私は他の文字のいくつかを認識し、何かを削除する方法を知っていますが、すべての醜い文字が少なくとも有効な文字である限り。

alnum=0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ
sed -e's|.|&\n|g'     -e'# this opens up the string' \
    -e"s|\([-$alnum*_+ßäüö ()%&@=.$€]\)\{0,1\}.\{0,1\}\n|\1_|g" \
<<""
testﬂŒÆ˘ˆı››◊‹ıÓÌˇˆÁÓˆﬂÌˆ™ˇÏˆıÍÓÌıÓWÌtest

testWtest

^そうですか？

したがって、文字列を\n文字ごとに1行に分割し、左から右に一度に1文字ずつスキャンします。これを行うときは、各文字に対して2つの操作のうちの1つを実行します。つまり、ホワイトリスト内の文字の1つをその文字の0〜1項目に置き換えるか、別の文字の0〜1項目を削除します。どちらの場合も、末尾の改行文字も削除されます。

下線を使用すると、何をしているのかをより簡単に知ることができるようです_。（おそらくそれでそれを含めたでしょう）:

sed -e's|.|&\n|g'     -e'# this opens up the string' \
    -e"s|\([-$alnum*_+ßäüö ()%&@=.$€]\)\{0,1\}.\{0,1\}\n|\1_|g" \
<<""
    testﬂŒÆ˘ˆı››◊‹ıÓÌˇˆÁÓˆﬂÌˆ™ˇÏˆıÍÓÌıÓWÌtest

 _ _ _ _t_e_s_t________________________________W__t_e_s_t_

sed交換可能です。無効- 長さ文字列。削除しても大丈夫ですが、sed受け入れたり保管しても大丈夫です。それでも。ああ、スペースですよね。（Markdownコードブロックのインデント用）空間だ。

私が\newlineを使用している理由の1つは、パターン空間で無効なバイト列に何が起こるかに関するものです。実際の文字と同じでない場合、一致せずに.失敗/^.*$/します。改行の場合、無効なバイトシーケンスの後の文字が.最初に一致すると、次のようになります。

sed    '/^.*$/!{/\n/D;}'

...もう過ぎます。（しかし、GNUではありませんsed。最初に確認しなければなりませんでした。sed以前はASTを使用していました。面倒ではありませんでした。）。 GNUを使用してパターン領域全体を適用しますsed z。z

Answer