Centos7：awkはutf16leをサポートしていますか？

Question

POSIX システムで UTF-16 を使用するロケールは C ロケールと互換性がないため使用できません。

GNUを使用すると、次のawkことができます。

LC_ALL=C awk -v RS='\n\0' -v ORS='\n\0' -F '[|]\0' '{print $1}'

つまり、入力はバイトストリームとして扱われますが、レコードとフィールドの区切り文字を2バイトのUTF-16LEエンコーディングに設定します。

入力に以下が含まれている場合：

<U+0AFF><U+FF00>

これは次のようにエンコードされますFF0A00FF（したがって、\n\0レコード区切り文字を含む）。

UTF-8に変換することが唯一の信頼できるオプションのようです。ただし、一時ファイルを使用する必要はありません（ロケールの文字マップがUTF-8であると仮定します）。

< file.in iconv -f UTF-16LE |
  awk -F'|' '{print $1}' |
  iconv -t UTF-16LE > file.out

|UTF-8以外の文字にはバイト（0x7c）を含めることはできません|（改行または移植可能な文字セット内のすべての文字に対して同じawk）cut。

< file.in iconv -f UTF-16LE -t UTF-8 |
  LC_ALL=C cut -d '|' -f1 |
  iconv -f UTF-8 -t UTF-16LE > file.out

Answer 1