Bashのprintfを使用してUnicode文字列を埋める

Question 1

文字はä2バイトを使用してUTF-8でエンコードされるため、Printfはそれを2パディングとして扱います。

-mWcは文字列の文字（）とバイト（）を計算できます。-cその後、Printfに与えられた数字はです[intended pad]+[bytes]-[chars]。だから私はこのpad.shスクリプトを組み立てました。

#!/bin/sh
bytes=$(printf '%s' "$2" | wc -c)
chars=$(printf '%s' "$2" | wc -m)
n=$(($1+bytes-chars))
printf "%${n}s" "$2"

以下の例の実行では、明確にするために、各出力の後に人工的に改行文字を追加しました。

$ sh pad.sh 10 abcdef
    abcdef
$ sh pad.sh 10 äéßôçÈ
    äéßôçÈ

Answer

文字はä2バイトを使用してUTF-8でエンコードされるため、Printfはそれを2パディングとして扱います。

-mWcは文字列の文字（）とバイト（）を計算できます。-cその後、Printfに与えられた数字はです[intended pad]+[bytes]-[chars]。だから私はこのpad.shスクリプトを組み立てました。

#!/bin/sh
bytes=$(printf '%s' "$2" | wc -c)
chars=$(printf '%s' "$2" | wc -m)
n=$(($1+bytes-chars))
printf "%${n}s" "$2"

以下の例の実行では、明確にするために、各出力の後に人工的に改行文字を追加しました。

$ sh pad.sh 10 abcdef
    abcdef
$ sh pad.sh 10 äéßôçÈ
    äéßôçÈ

Question 2

BashでUnicode文字列をどのように入力しますか？

これはbashの機能をはるかに超えています。「Unicode文字列」をascii ++に制限する場合（2バイト文字なし、bidiなし、空白以外のマーカーなしなど）、一時的に次のように設定できます。

% pad(){ printf '%*s%s\n' "$(($1-${#2}))" "" "$2"; }
% pad 2 €
 €

Answer

BashでUnicode文字列をどのように入力しますか？

これはbashの機能をはるかに超えています。「Unicode文字列」をascii ++に制限する場合（2バイト文字なし、bidiなし、空白以外のマーカーなしなど）、一時的に次のように設定できます。

% pad(){ printf '%*s%s\n' "$(($1-${#2}))" "" "$2"; }
% pad 2 €
 €

Question 3

bashは正しく動作し、Cプログラムは

#include <stdio.h>
main()
{
        char foo[] = "ä";

        printf("%2s\n", foo);
}

行動は同じです。

これは、％sがバイト指向の文字列を参照し、UTF-8の「ä」が2バイトになるためです。

私がテストした限り、他のシェルは間違って動作しませんでした。

必要な結果は次のように確認できます。

printf '%2S\n' ä

しかし、私がテストしたシェルのどれもそれをサポートしていません。

Answer