私はいくつかの大容量データファイル(電子メールアドレスを含む)を前処理するためにソートを使用しています。しかし、それが生成する順序は私が期待するものとは異なります(したがって、データの後続の処理が壊れます)。特に、ソートは句読点を無視するようです。
たとえば、個人情報を保護するために電子メールアドレス全体を切り捨てると、sort -u
次のようになります。
Got this....
aaala
a.abu
a.abu
aacs.
aad19
a.aga
a.agh
aagro
a.agu
aakyl
a.ala
a.ale
aalig
こんなことを期待していた中..
a.abu
a.abu
a.aga
a.agh
a.agu
a.ala
a.ale
aaala
aacs.
aad19
aagro
aakyl
aalig
(「-n」、「-d」、および「-g」フラグはそれぞれ同じ結果を提供します)。
sort
ASCII / UTF8文字コードに基づいてソートするように説得する方法は?