geditのバグとUnix-&-Linux Q / A hrefの間の関連性は何ですか?

geditのバグとUnix-&-Linux Q / A hrefの間の関連性は何ですか?

aへの回答としてUnixとLinuxの問題、私はGeditと他の2つのエディタであるLeafpadとMedit(合計12個のエディタをテストしました)で特定のバグを見つけました。このバグはCanonicalのランチパッドでBug#332321として知られていることがわかりました。ssをßで検索(および置換)

間違った動作は、と...の両方をfind ß一致させることです(特に完全な交換を実行する場合は悪い)。 ßss

How to bind “ß” to Meta-s?次に、StackExchangeソフトウェアが質問へのhrefリンクを生成するために質問のタイトルをからに変換したことを確認しましたhow-to-bind-ss-to-meta-s

ßそれでは、同様の方法で扱われるまったく関係のない2つの環境ß間のこの奇妙な魅力は何ですかss? …そのような「関係」はまたありますか?

答え1

ßss実際には合字(ドイツ語)です。 Unicodeやその他の拡張アルファベット文字をURLなどの「安全な」文字に変換するためにテーブルを使用している人は、おそらくこれをss

URLを使用してこれを行うのが一般的です。たとえば、私は英語にはない文字を持つトルコ語を使用しますö ü ı â ğ ç ş İ。これらの文字は、URL、特殊フォームフィールドなどに使用するのに必ずしも安全ではありません。これを同様の文字(たとえば)に置き換えますo u i a g c s I。通常、これは音ではなく視覚的類似性を介して行われますが、ß聴覚的類似性の場合はss一般的な変換になります。

これによりデータが完全に失われますが、URLやその他の特殊フィールドを安全に表現する役割を果たし、Webサイト自体で実際の文字を使用することができます。

geditこの移行が必要な理由は私次第です。これは間違いです。

答え2

ケース正規化。 <Geditで確認>はい。

大文字と小文字を区別せずに検索すると、GEdit(そして他の人も同様)は大文字と小文字を正規化するため、多くの文字同等性が損なわれます。たとえば、ßssはすべて大文字ですSSéé最初の文字はU + 00E9 LATIN SMALL LETTER E AND ACUTE、2番目の文字はU + 0301 COMBINING ACUTE ACCENTの後にU + 0065 LATIN SMALL LETTER Eです)などの複合文字も同じと見なされます。

大文字と小文字を区別して検索を実行する場合、これらの文字の順序は異なると見なされます。

関連情報