Unix文字セット変換

Question 1

問題＃1：「Flyers：Video Center」を検索しています...結果はありません。:

ファイルの16進ダンプで、単語の間に2バイトのC2A0があることを確認してください。せん断：そして動画。 UTF8エンコーディングです。中断されないスペース。grep NBSPは失敗することが知られています。もっと情報が欲しいなら読んでくださいsedを使用して特殊な「M-BM-」文字を削除する方法そしてsedを使用して置き換える... Hex c2a0。短い答えは次のとおりです。

sed -i.bak -e 's/\xc2\xa0/ /' /path/to/file

質問＃2「アメリカ」は「アメリカ」（？？）として表示されます。:

ここでダンプにはe28099という3バイトが含まれています。右一重引用符(').実際、ここには何の問題もないはずです！上記の質問によって注意が気になることがあります。（確認できますか？）

grep、およびロケールを尊重する式（UTF8！）を含む他のツールを使用すると、sed次のように動作します。

printf 'America\xe2\x80\x99s\n' | grep --only-matching "[[:punct:]]"
printf 'America\xe2\x80\x99s\n' | sed -e "s/[[:punct:]]/?/"

UTF-8をすべて削除したい場合」特別な「文字を使用するには上記のヒントを使用できます。iconv（しかし、UTF8をサポートしない理由はほとんどありません。）

ASCII以外の文字をすべて削除します。

type a.txt | iconv -f utf8 -t ASCII//TRANSLIT

または、1 つのロケールの文字を保存します。

type a.txt | iconv -f utf8 -t iso8859-15//TRANSLIT | iconv -f iso8859-15 -t utf8

Answer

問題＃1：「Flyers：Video Center」を検索しています...結果はありません。:

ファイルの16進ダンプで、単語の間に2バイトのC2A0があることを確認してください。せん断：そして動画。 UTF8エンコーディングです。中断されないスペース。grep NBSPは失敗することが知られています。もっと情報が欲しいなら読んでくださいsedを使用して特殊な「M-BM-」文字を削除する方法そしてsedを使用して置き換える... Hex c2a0。短い答えは次のとおりです。

sed -i.bak -e 's/\xc2\xa0/ /' /path/to/file

質問＃2「アメリカ」は「アメリカ」（？？）として表示されます。:

ここでダンプにはe28099という3バイトが含まれています。右一重引用符(').実際、ここには何の問題もないはずです！上記の質問によって注意が気になることがあります。（確認できますか？）

grep、およびロケールを尊重する式（UTF8！）を含む他のツールを使用すると、sed次のように動作します。

printf 'America\xe2\x80\x99s\n' | grep --only-matching "[[:punct:]]"
printf 'America\xe2\x80\x99s\n' | sed -e "s/[[:punct:]]/?/"

UTF-8をすべて削除したい場合」特別な「文字を使用するには上記のヒントを使用できます。iconv（しかし、UTF8をサポートしない理由はほとんどありません。）

ASCII以外の文字をすべて削除します。

type a.txt | iconv -f utf8 -t ASCII//TRANSLIT

または、1 つのロケールの文字を保存します。

type a.txt | iconv -f utf8 -t iso8859-15//TRANSLIT | iconv -f iso8859-15 -t utf8

Question 2

同じではないXML、その情報に対して別の方法でcsvを取得する必要がある元のコンテンツエンコーディングを説明するエンコーディングタグを含める必要があります。

しかし、タイプバイナリデータには適していますが、テキストデータには適していません。

これは、コマンドの動作方法によるものです。バラより男のテキスト。おおよその：最初の数バイトを見て、ルックアップテーブルで見つかったコンテンツを見つけてコンテンツを推測しようとします。

したがって、通常、コンテンツ制作者にどの文字セットを使用したかを尋ねるのが最善です。

これが不可能な場合 - 何らかの理由で賞ここにあなたの親友はありますか？

Answer

同じではないXML、その情報に対して別の方法でcsvを取得する必要がある元のコンテンツエンコーディングを説明するエンコーディングタグを含める必要があります。

しかし、タイプバイナリデータには適していますが、テキストデータには適していません。

これは、コマンドの動作方法によるものです。バラより男のテキスト。おおよその：最初の数バイトを見て、ルックアップテーブルで見つかったコンテンツを見つけてコンテンツを推測しようとします。

したがって、通常、コンテンツ制作者にどの文字セットを使用したかを尋ねるのが最善です。

これが不可能な場合 - 何らかの理由で賞ここにあなたの親友はありますか？

関連情報