Case 文で大文字と小文字を区別する方法は?

Question 1

間違いなく他の人がその場に代わることができるというのは簡単な答えです。

文字セットの順序は、使用されるロケールによって異なります。ロケールの概念は、さまざまな民族グループとさまざまな言語をサポートするために導入されました。出力からわかるように、localeデータの並べ替えだけでなく、いくつかの異なる領域が解決されました。

あなたの場合はアメリカであり、並べ替えと整理の目的で、アルファベットはAaBbCc ... ZzまたはA = a、B = b、C = cなどです（何かを忘れており、コンピュータにないため、次のいずれかを確認できます）。それらを）。ロケールは複雑で、一部のロケールには並べ替えと照合には表示されない文字が含まれる場合があります。同じ文字でも、使用されるロケールによって異なるように並べ替えることができます。

見つかったように小文字を識別する正しい方法は[[:lower:]]、必要に応じてアクセント文字を含め、他のアルファベット（ギリシャ語、キリル文字など）の小文字も含めます。

デフォルトのソートが必要な場合は、設定を使用してアプリケーションごとまたはコマンド別に復元できますLC_ALL=C。人間が作った例を挙げると、

grep some_pattern | LC_ALL=C sort | nl

Answer

間違いなく他の人がその場に代わることができるというのは簡単な答えです。

文字セットの順序は、使用されるロケールによって異なります。ロケールの概念は、さまざまな民族グループとさまざまな言語をサポートするために導入されました。出力からわかるように、localeデータの並べ替えだけでなく、いくつかの異なる領域が解決されました。

あなたの場合はアメリカであり、並べ替えと整理の目的で、アルファベットはAaBbCc ... ZzまたはA = a、B = b、C = cなどです（何かを忘れており、コンピュータにないため、次のいずれかを確認できます）。それらを）。ロケールは複雑で、一部のロケールには並べ替えと照合には表示されない文字が含まれる場合があります。同じ文字でも、使用されるロケールによって異なるように並べ替えることができます。

見つかったように小文字を識別する正しい方法は[[:lower:]]、必要に応じてアクセント文字を含め、他のアルファベット（ギリシャ語、キリル文字など）の小文字も含めます。

デフォルトのソートが必要な場合は、設定を使用してアプリケーションごとまたはコマンド別に復元できますLC_ALL=C。人間が作った例を挙げると、

grep some_pattern | LC_ALL=C sort | nl

Question 2

辞書の順序とASCIIの順序の間には絶え間ない戦いがありました。
長い間。

Unicodeの観点からは、文字は地域の規則に従ってソートする必要があります。辞書順番なので、A b B ...はアメリカ文字（ASCII文字）を表します。これは通常、en_US.utf-8 ロケールの [a-zA-Z] 範囲と一致します。国際化は通常これに同意します。

プログラマの観点から見ると、C言語のため、[az]は97から122の間のASCII文字のみを一致させる必要があります。一つバイト値。 [AZ] 同じです。これは通常、文字をバイトとして定義するC言語の定義と一致します。一部のシナリオ作家は、この定義を使用したいと考えています。

闘争はしばしばある解釈から別の解釈に移ります。
時には[az]の範囲がabcdefghijklmnopqrstuvwxyz。に変わったり、
時にはaAbBcCdDeEfFgGhHiIjJkKlLmMnNoOpPqQrRsStTuUvVwWxXyYz。

詳細は複雑です。歴史的。戦いはまだ激しいです。

したがって、次のような結果が得られます（テスト文字列book）。

bashバージョン2、3、4の場合、「文字列は大文字で始まります」
bashバージョン5（および1）の場合、「文字列は小文字で始まります」
ほとんどのシェルはこれを「小文字」と報告します。

文字列úber（en_US.UTF-8）をテストすると、次のような結果が得られます。

ksh/ATT-shの「小文字」
dash、zsh、bash 5.0+、または[lm] kshの「英語ではありません」
bash 2、3、4の「大文字」。

そして文字列Úber。

だから結果もさまざまです。

a-zLC_ALL = Cを設定して、小文字のみ（およびA-Z大文字のみ）解釈することもできます。これにより、データの並べ替えのみが固定されますC。ロケールが変更されると、何も変更されません。より強力なスクリプトですが、適応性が低いスクリプトです。

利用可能なオプションもありますが、[[:lower:]]ASCII範囲azも保証されています。ただC言語環境で。 POSIXの将来のバージョン（まだ2020年にリリースされていない）では、すべてのロケールに対して適用される可能性があります。

すべてを考慮すると、外部決定（Unix仕様のシェル開発者）がコード範囲を変更しないようにする唯一の安全な方法は次のとおりです。

# practicing case statements
echo "enter a string"
read yourstring
echo -e "your string is $yourstring\n"

low='abcdefghijklmnopqrstuvwxyz'
cap='ABCDEFGHIJKLMNOPQRSTUVWXYZ'

case "$yourstring" in
    [$cap]* ) echo "your string begins with a Capital Letter"   ;; 
    [$low]* ) echo "your string begins with a lowercase letter" ;; 
    *)      echo "your string did not begin with an English letter" ;;
esac

Answer