分割を使用して中国語のUnicodeバイトを文字ブロックに分割できますか？

Question 1

xxd次の出力に示すように、各文字の幅は3バイトです。

$ xxd chinese-bytes
0000000: e6b4 9ee5 baad e6b9 96                   .........

split -b3私のために動作します。

$ split -b3 chinese-bytes
$ echo xa?
xaa xab xac
$ cat xaa; echo
洞
$ cat xab; echo
庭
$ cat xac; echo
湖

Answer

xxd次の出力に示すように、各文字の幅は3バイトです。

$ xxd chinese-bytes
0000000: e6b4 9ee5 baad e6b9 96                   .........

split -b3私のために動作します。

$ split -b3 chinese-bytes
$ echo xa?
xaa xab xac
$ cat xaa; echo
洞
$ cat xab; echo
庭
$ cat xac; echo
湖

Question 2

私が知る限り、すべての漢字はエンコードの長さが3バイトです。UTF-8、Unixの一般的なUnicodeエンコーディングです。ただし、中国語以外の文字（スペースや改行文字など）は幅が異なる場合があります（デフォルトの制御文字やアラビア数字の形式などはすべて1バイト幅です）。ユーティリティsplitは固定バイト数だけを理解しているため、整列されていないカットを無差別にします。

42文字ごとに分割するには、より洗練されたツールを使用する必要があります。以下は、トリックを実行するPerlフラグメントです（テストされていません）。すべての文字を同じように扱います。漢字は改行文字と同様に1と計算されます。

perl -CDS -e '
    $n = 0;
    while (read STDIN, $buf, 42) {
        open OUT, sprintf("> output-$n.txt") or die;
        print OUT $buf;
        close OUT or die;
        ++$n;
    }'

Answer

私が知る限り、すべての漢字はエンコードの長さが3バイトです。UTF-8、Unixの一般的なUnicodeエンコーディングです。ただし、中国語以外の文字（スペースや改行文字など）は幅が異なる場合があります（デフォルトの制御文字やアラビア数字の形式などはすべて1バイト幅です）。ユーティリティsplitは固定バイト数だけを理解しているため、整列されていないカットを無差別にします。

42文字ごとに分割するには、より洗練されたツールを使用する必要があります。以下は、トリックを実行するPerlフラグメントです（テストされていません）。すべての文字を同じように扱います。漢字は改行文字と同様に1と計算されます。

perl -CDS -e '
    $n = 0;
    while (read STDIN, $buf, 42) {
        open OUT, sprintf("> output-$n.txt") or die;
        print OUT $buf;
        close OUT or die;
        ++$n;
    }'

Question 3

私が使用しているMac端末でegrep -o '.'

Answer

私が使用しているMac端末でegrep -o '.'

分割を使用して中国語のUnicodeバイトを文字ブロックに分割できますか？

答え1

答え2

答え3

関連情報