Javaと同じ順序でUnixソートソートを作成する方法（Unicode値に基づいて）

Question

これLC_COLLATE ロケールカテゴリはソート順を制御します。LC_ALLすべてのカテゴリを設定します。

を使用すると、LC_COLLATE=C文字列はバイト単位でソートされます。バイトは必要ありませんASCIIコード文字（0から127までのバイト値のみがASCIIです）。 Unixシステムでは、Unicodeはほぼ常に次のようにエンコードされます。UTF-8。 UTF-8には、文字をバイトシーケンスにエンコードするときに文字順序を保持する属性があるため、UTF-8文字列をバイト辞書順序で並べ替えることは、文字辞書順序で並べ替えるのと同じです。したがって、LC_COLLATE=CUTF-8でエンコードされたUnicodeを文字値に基づいてアルファベット順にソートすることが適切です。

Javaは実際にUnicode文字値に基づいてソートするのではなく、UTF-16エンコーディングに基づいてソートします。これは以下に関連しています。エージェントペアつまり、コードポイントが65535より高い場合です。

UTF-8バイト表現のソート、Javaソート、およびsortGNU / LinuxのUTF-8ロケールユーティリティは許可されていません。文字の組み合わせたとえば、á(U+0061 LATIN SMALL LETTER A の後の U+0301 COMBINING ACUTE ACCENT) は (U+00E1 LATIN SMALL LETTER A WITH ACUTE) とは異なるように整列されます (UTF-8 ロケールでは両方とも同じでá終わります) 。a最初のパスでは、2番目のパスではコードポイントでソートされます。

Answer 1

これLC_COLLATE ロケールカテゴリはソート順を制御します。LC_ALLすべてのカテゴリを設定します。

を使用すると、LC_COLLATE=C文字列はバイト単位でソートされます。バイトは必要ありませんASCIIコード文字（0から127までのバイト値のみがASCIIです）。 Unixシステムでは、Unicodeはほぼ常に次のようにエンコードされます。UTF-8。 UTF-8には、文字をバイトシーケンスにエンコードするときに文字順序を保持する属性があるため、UTF-8文字列をバイト辞書順序で並べ替えることは、文字辞書順序で並べ替えるのと同じです。したがって、LC_COLLATE=CUTF-8でエンコードされたUnicodeを文字値に基づいてアルファベット順にソートすることが適切です。

Javaは実際にUnicode文字値に基づいてソートするのではなく、UTF-16エンコーディングに基づいてソートします。これは以下に関連しています。エージェントペアつまり、コードポイントが65535より高い場合です。

UTF-8バイト表現のソート、Javaソート、およびsortGNU / LinuxのUTF-8ロケールユーティリティは許可されていません。文字の組み合わせたとえば、á(U+0061 LATIN SMALL LETTER A の後の U+0301 COMBINING ACUTE ACCENT) は (U+00E1 LATIN SMALL LETTER A WITH ACUTE) とは異なるように整列されます (UTF-8 ロケールでは両方とも同じでá終わります) 。a最初のパスでは、2番目のパスではコードポイントでソートされます。

Javaと同じ順序でUnixソートソートを作成する方法（Unicode値に基づいて）

答え1

関連情報