解析する必要があるXMLファイルがあります。 nanoで開くと、nanoからメッセージが送信されます(converted from Mac format)
。ただし、^@
以下のように各文字の間には順序があります。
^@t^@h^@e^@ ^@q^@u^@i^@c^@k^@ ...
これはどのような形式で、正しく表示するにはどうすればよいですか?どのように変換できますか?
答え1
ダブルバイト形式です。UTF-16 識別できることを確認してください。BOM(バイト順表示)ファイルヘッダーはファイルの先頭にあります。エンコーディングが存在するかどうかを知らせることができますが、そうでない可能性があります。テキストエディタではこの内容を非表示にできるため、ファイルを表示するには16進ダンプユーティリティを使用する必要があります。od
またはBOMを見るのと似ています。
役に立ついくつかの文字セット変換ユーティリティがあります。いくつかの例は次のとおりです。iconv
そしてrecode
。これらのいずれかを使用して、ファイルをテキストエディタに適した形式に再エンコードできます。
プログラムで翻訳する必要がある場合、ほとんどの言語(Pythonなど)にはエンコード方式間のマッピング用のライブラリがあります。 www.unicodetools.comさまざまな言語で関連する注文を表示します。便利なUnicode FAQは以下にあります。ここそしてUnicodeアライアンスウェブサイトこのトピックに関する有用な資料がたくさんあります。