POSIXツールを使用して、BOMでUnicodeファイルを正しく処理します。

Question 1

Unicodeコンソーシアムには、次のFAQがあります。BOMをどのように処理しますか？。このセクションには以下が含まれます。

テキストデータストリームが純粋なUnicodeテキストであることがわかっていますが、どのエンディアンであるかわからない場合は、BOMを署名として使用できます。 BOMがない場合、テキストはビッグエンディアンとして解釈する必要があります。

そして

データストリームの正確なタイプがわかっている場合（UnicodeビッグエンディアンやUnicodeリトルエンディアンなど）、BOMを使用しないでください。特に、データストリームがUTF-16BE、UTF-16LE、UTF-32BE、またはUTF-32LEとして宣言されるたびにBOMを使用しないでください。

UTF-8はいつもエンディアンがないのでエンディアンとして知られています。したがって、テキストがUTF-8であることを知っている限り、「BOMを使用しないでください」。

BOMを不必要に使用しても、cat最初のファイルを除くすべてのファイルのBOMは、幅0の改行なしの空白として扱われるため、誤った結果が返されます。しかし、UNIXの力はフィルタにあります。

単一のファイルまたはストリームに対する操作の場合、sed "1s/^$(printf '\357\273\277')//"BOM（存在する場合）がパイプラインから削除され、他のすべてのストリームは変更されません。

複数のファイルを扱う場合は、プロセス置換シェル（Bashに似ていますが、残念ながらPOSIXシェルではありません）が便利です。

sb() { sed "1s/$(printf '\357\273\277')//" "$@" ; }
cat <(sb file1) <(sb file2) …

Answer

Unicodeコンソーシアムには、次のFAQがあります。BOMをどのように処理しますか？。このセクションには以下が含まれます。

テキストデータストリームが純粋なUnicodeテキストであることがわかっていますが、どのエンディアンであるかわからない場合は、BOMを署名として使用できます。 BOMがない場合、テキストはビッグエンディアンとして解釈する必要があります。

そして

データストリームの正確なタイプがわかっている場合（UnicodeビッグエンディアンやUnicodeリトルエンディアンなど）、BOMを使用しないでください。特に、データストリームがUTF-16BE、UTF-16LE、UTF-32BE、またはUTF-32LEとして宣言されるたびにBOMを使用しないでください。

UTF-8はいつもエンディアンがないのでエンディアンとして知られています。したがって、テキストがUTF-8であることを知っている限り、「BOMを使用しないでください」。

BOMを不必要に使用しても、cat最初のファイルを除くすべてのファイルのBOMは、幅0の改行なしの空白として扱われるため、誤った結果が返されます。しかし、UNIXの力はフィルタにあります。

単一のファイルまたはストリームに対する操作の場合、sed "1s/^$(printf '\357\273\277')//"BOM（存在する場合）がパイプラインから削除され、他のすべてのストリームは変更されません。

複数のファイルを扱う場合は、プロセス置換シェル（Bashに似ていますが、残念ながらPOSIXシェルではありません）が便利です。

sb() { sed "1s/$(printf '\357\273\277')//" "$@" ; }
cat <(sb file1) <(sb file2) …

Question 2

ほとんどのPOSIXツールは文字ではなくバイトとして機能します。 Unicode信号は意味がないので、他のデータと同じように扱われます。

Answer

ほとんどのPOSIXツールは文字ではなくバイトとして機能します。 Unicode信号は意味がないので、他のデータと同じように扱われます。

Question 3

~からもう一つの答え、無効なBOM署名を持つファイルを処理しているようです。

だから答えはPOSIXツールはすでにUnicode（UTF-8）ファイルを正しく処理します。

Unicodeが間違っている場合は、もちろん正しく処理されませんが、次のものを使用できます。他の質問でのBOMの位置決め冗長BOM署名を処理します。

Answer

~からもう一つの答え、無効なBOM署名を持つファイルを処理しているようです。

だから答えはPOSIXツールはすでにUnicode（UTF-8）ファイルを正しく処理します。

Unicodeが間違っている場合は、もちろん正しく処理されませんが、次のものを使用できます。他の質問でのBOMの位置決め冗長BOM署名を処理します。

POSIXツールを使用して、BOMでUnicodeファイルを正しく処理します。

答え1

答え2

答え3

関連情報