一部の Unicode 文字を無視し、文字以外の文字を削除します。

Question

tr/a-z/ /cs;セットにないすべての文字を空白に置き換える必要がありますa-z。（末尾はセットを補完するためのものです。そうでなければからまでのすべての文字をc置き換えます。）az

より具体的に説明する必要があります。s/[[:punct:]]+/ /gすべての句読点文字シーケンスを単一のスペースに置き換え、s/[^[:alpha:]]+/ /gすべてのアルファベット以外の文字シーケンスを単一のスペースに置き換えます。

少なくともこれはロケールによって異なりますので、PerlにUTF-8などを[:alpha:]使用するように指示する必要があります。-Cまた、[^[:alpha:]]数字と末尾の改行も削除されます。en_US.UTF-8Debianのロケールは次のとおりです。

$ echo '[]përgjithshme [" është "] 28.748 [< kilometra katrorë.>]' | perl -C -pe 's/[^[:alpha:]]+/ /g'
 përgjithshme është kilometra katrorë $ 

$ echo '[]përgjithshme [" është "] 28.748 [< kilometra katrorë.>]' | perl -C -pe 's/[[:punct:]]+/ /g'
 përgjithshme   është   28 748   kilometra katrorë 
$

Answer 1

tr/a-z/ /cs;セットにないすべての文字を空白に置き換える必要がありますa-z。（末尾はセットを補完するためのものです。そうでなければからまでのすべての文字をc置き換えます。）az

より具体的に説明する必要があります。s/[[:punct:]]+/ /gすべての句読点文字シーケンスを単一のスペースに置き換え、s/[^[:alpha:]]+/ /gすべてのアルファベット以外の文字シーケンスを単一のスペースに置き換えます。

少なくともこれはロケールによって異なりますので、PerlにUTF-8などを[:alpha:]使用するように指示する必要があります。-Cまた、[^[:alpha:]]数字と末尾の改行も削除されます。en_US.UTF-8Debianのロケールは次のとおりです。

$ echo '[]përgjithshme [" është "] 28.748 [< kilometra katrorë.>]' | perl -C -pe 's/[^[:alpha:]]+/ /g'
 përgjithshme është kilometra katrorë $ 

$ echo '[]përgjithshme [" është "] 28.748 [< kilometra katrorë.>]' | perl -C -pe 's/[[:punct:]]+/ /g'
 përgjithshme   është   28 748   kilometra katrorë 
$

一部の Unicode 文字を無視し、文字以外の文字を削除します。

答え1

関連情報