壊れたファイルで二重文字を見つけてUnicode単一文字に置き換えるには？

Question 1

テキストがutf-8（Unix標準なので大丈夫）でエンコードされているように見えますが、何かがISO 8859-1 / MicrosoftのWindows Latin-1に読み込まれ、対応する解釈が出力されます。これを裏返す必要があります。

例えば

echo "passer de trÃ¨s bonnes fÃªtes de fin d'annÃ©e" | iconv --to-code="ISO 8859-1"

これにより、壊れたエンコーディングが有効なUTF-8に変換されます。システムがutf-8で構成されている場合は、正しく読み取られます。

説明：これにより、echo è | od -t x116echo ê | od -t x1進コードがc3 a8 0a合計であることがわかり、ここを見るc3 aa 0aことができます。http://www.ascii-code.com/（これはASCIIではなくISO 8859-1コードです。）私たちは、このコードがÃ¨後ろÃªに見えない文字が来るのを見ることができます。今、私たちは何が間違っているのか知っています。 UTF-8を読みますが、ISO 8859-1として解釈することです。したがって、これを裏返す必要があります。読んでいる形式が何であれ、それをISO 8859-1（ここにあるものとは逆）に変換する必要があります。結果は有効なutf-8です。

Answer

テキストがutf-8（Unix標準なので大丈夫）でエンコードされているように見えますが、何かがISO 8859-1 / MicrosoftのWindows Latin-1に読み込まれ、対応する解釈が出力されます。これを裏返す必要があります。

例えば

echo "passer de trÃ¨s bonnes fÃªtes de fin d'annÃ©e" | iconv --to-code="ISO 8859-1"

これにより、壊れたエンコーディングが有効なUTF-8に変換されます。システムがutf-8で構成されている場合は、正しく読み取られます。

説明：これにより、echo è | od -t x116echo ê | od -t x1進コードがc3 a8 0a合計であることがわかり、ここを見るc3 aa 0aことができます。http://www.ascii-code.com/（これはASCIIではなくISO 8859-1コードです。）私たちは、このコードがÃ¨後ろÃªに見えない文字が来るのを見ることができます。今、私たちは何が間違っているのか知っています。 UTF-8を読みますが、ISO 8859-1として解釈することです。したがって、これを裏返す必要があります。読んでいる形式が何であれ、それをISO 8859-1（ここにあるものとは逆）に変換する必要があります。結果は有効なutf-8です。

Question 2

元のポスターが提示するモジバケには2つの理由があります。

ファイルにはUTF形式のフランス語のテキストが含まれていますが、ファイルを誤って表示するプログラムはUTF-8の代わりにISO 8859-1またはWindows-1252エンコーディングを使用します。
デュアルエンコーディング：基本的にリチャードが言ったことです。

解決策は次のとおりです。

UTF-8ロケールを使用するアプリケーションから読み込みます。
努力するiconf -f UTF-8 -t Windows-1252 <ジャンクファイル またはiconf -f UTF-8 -t ISO-8859-1 <ジャンクファイル 、出力に意味のあるUTF-8テキストがあると予想されます。

ただし、テキストがより破損している可能性があります（専門家の場合：例：UTFでエンコードされたU + 00C7Ç \303\207、ISO-8859-1のC1制御コードで読み取りが削除される）、自動変換はもはや不可能です。その場合は、自動検索と置換（Richardの回答の下の説明を参照）を使用して、少なくともいくつかの元の文字を復元できます。

Answer

元のポスターが提示するモジバケには2つの理由があります。

ファイルにはUTF形式のフランス語のテキストが含まれていますが、ファイルを誤って表示するプログラムはUTF-8の代わりにISO 8859-1またはWindows-1252エンコーディングを使用します。
デュアルエンコーディング：基本的にリチャードが言ったことです。

解決策は次のとおりです。

UTF-8ロケールを使用するアプリケーションから読み込みます。
努力するiconf -f UTF-8 -t Windows-1252 <ジャンクファイル またはiconf -f UTF-8 -t ISO-8859-1 <ジャンクファイル 、出力に意味のあるUTF-8テキストがあると予想されます。

ただし、テキストがより破損している可能性があります（専門家の場合：例：UTFでエンコードされたU + 00C7Ç \303\207、ISO-8859-1のC1制御コードで読み取りが削除される）、自動変換はもはや不可能です。その場合は、自動検索と置換（Richardの回答の下の説明を参照）を使用して、少なくともいくつかの元の文字を復元できます。

壊れたファイルで二重文字を見つけてUnicode単一文字に置き換えるには？

答え1

答え2

関連情報