od は `\x7f` の後のシンボルをどのように処理しますか？

Question

awk実装に応じて、printf("%c", n)出力バイト値nまたはコードポイントは文字ですn。

ロケールの文字セットがUTF-8（出力を参照locale charmap）の場合、0〜127の値に対して同じ結果が生成されます（ここで、文字U + 0000〜U + 007fはバイト値0〜0x7fでエンコードされています）。

awkただし、127を超える場合は、最初のカテゴリ実装の対応するバイト値（8ビットで切り捨て）を取得するか、他のカテゴリ実装のUTF-8エンコーディング（少なくともGNU awk、おそらくあなたが望むもの）を取得します。）を再利用しています。

gawk 'BEGIN{printf "%c", 8364}'

(8364 は 0x20AC)€は UTF-8 で 0xe2 0x82 0xac でエンコードされたユーロ記号 (U+20AC) を印刷します。

mawk 'BEGIN{printf "%c", 8364}'

0xACバイトを印刷します（これは文字なしのUTF-8エンコーディングで、無効なテキストであり、端末で代替�文字としてレンダリングされる可能性があります）。

気づくコードポイントこれは通常、マルチバイト文字セットの場合はUnicodeコードポイント、シングルバイト文字セットの場合は文字セット値（つまりバイト値）です。 iso8859-15文字セットを使用するロケールでは、ユーロ記号のコードポイントは0xA4（0x20ACではありません）で、printf("%c", 0xA4)ユーロ記号（バイト値0xA4）は実装に関係なく印刷されますawk。

awkしたがって、値（1から255までの値、すべての実装が0で正しく機能しているわけではありません）でバイトを印刷するには、次のようにします。

LC_ALL=C awk 'BEGIN{printf "%c", value}'

C ロケールのキャラクタ・セットは単一バイトが保証され、すべてのシステムに C ロケールがあります。

以下も使用できます。

printf '\200'

（ここでバイト値は8進数で表されます。）一部の実装printfでは16進数もサポートされています。

printf '\x80'

一部のprintf実装では、以下もサポートしています。

printf '\u20ac'

Unicodeコードポイント（通常はロケールの文字セット）に従って文字を印刷します（したがってiso8859-15ロケールでは0xA4、UTF-8ロケールでは0xe2 0x82 0xac、文字セットにユーロ記号がないロケール）。、一部の人々は、ロケールの文字セットに関係なく、組み込みprintf出力がUTF-8でエンコードされることを好みます。ksh93

Answer 1