奇妙な文字を識別する方法は？

Question 1

ファイルには、16進数のEBと0Aという2バイトが含まれています。ファイルは文字ごとに1バイトの文字セットを使用できます。ISO-8859-1; この文字セットでは、EB は ë です。

$ printf "\353\n" | iconv -f ISO-8859-1
ë

他の候補はδコードページ437, Ù inコードページ850...

od -xこの場合、エンディアンによって出力が混乱します。より良いオプションは、-t x1シングルバイトを使用することです。

$ printf "\353\n" | od -t x1
0000000 eb 0a
0000002

od -xod -t x2一度に2バイトを読み取り、リトルエンディアンシステムからバイトを逆順に出力するようにマッピングされます。

このように有効なUTF-8ではない（またはUTF-8ファイルとして解釈するときに意味のない）ファイルを見つけた場合、そのエンコード（および文字セット）を自動的に決定するための明確な方法はありません。コンテキストが役に立ちます。過去数十年にわたって西部のPCで生成されたファイルは、ISO-8859-1、-15（ヨーロッパのバリエーション）、またはWindows-1252でエンコードされている可能性があります。それより古い場合はCPです。 -437とCP-850が可能な候補だ。東ヨーロッパ、ロシア、アジアのファイルは、私が理解できない他の文字セットを使用します。その後、EBCDIC...はiconv -lすべての既知の文字セットを一覧表示し、iconvそこでいくつかの試行錯誤を実行できます。

（かつてCP-437とATASCIIを大部分覚えました。その時がそうでした。）

Answer

ファイルには、16進数のEBと0Aという2バイトが含まれています。ファイルは文字ごとに1バイトの文字セットを使用できます。ISO-8859-1; この文字セットでは、EB は ë です。

$ printf "\353\n" | iconv -f ISO-8859-1
ë

他の候補はδコードページ437, Ù inコードページ850...

od -xこの場合、エンディアンによって出力が混乱します。より良いオプションは、-t x1シングルバイトを使用することです。

$ printf "\353\n" | od -t x1
0000000 eb 0a
0000002

od -xod -t x2一度に2バイトを読み取り、リトルエンディアンシステムからバイトを逆順に出力するようにマッピングされます。

このように有効なUTF-8ではない（またはUTF-8ファイルとして解釈するときに意味のない）ファイルを見つけた場合、そのエンコード（および文字セット）を自動的に決定するための明確な方法はありません。コンテキストが役に立ちます。過去数十年にわたって西部のPCで生成されたファイルは、ISO-8859-1、-15（ヨーロッパのバリエーション）、またはWindows-1252でエンコードされている可能性があります。それより古い場合はCPです。 -437とCP-850が可能な候補だ。東ヨーロッパ、ロシア、アジアのファイルは、私が理解できない他の文字セットを使用します。その後、EBCDIC...はiconv -lすべての既知の文字セットを一覧表示し、iconvそこでいくつかの試行錯誤を実行できます。

（かつてCP-437とATASCIIを大部分覚えました。その時がそうでした。）

Question 2

od略語なので注意してくださいオクタルダンプ、0053538進数の単語である2バイト、単語であるod -x160aeb進数、ファイルの実際の内容は、この順に2バイトebと16進数です。0a

したがって、005353およびは0aeb「16進コードポイント」として解釈することはできません。

0aebエンコードによる改行文字（LF）。fileエンコーディングだけを推測すると、何でもすることができます。ファイルのソースなどの追加情報がなければ、見つけるのは難しいです。

Answer

od略語なので注意してくださいオクタルダンプ、0053538進数の単語である2バイト、単語であるod -x160aeb進数、ファイルの実際の内容は、この順に2バイトebと16進数です。0a

したがって、005353およびは0aeb「16進コードポイント」として解釈することはできません。

0aebエンコードによる改行文字（LF）。fileエンコーディングだけを推測すると、何でもすることができます。ファイルのソースなどの追加情報がなければ、見つけるのは難しいです。

Question 3

テキストファイルの文字セットを100％正確に推測することは不可能です。

同様のツールシャダイ、Firefoxブラウザ、ファイル-i明確に定義された文字セット情報がない場合（たとえば、HTMLのヘッダーにメタcharset = ...が含まれている場合は状況が簡単になります）、経験的な方法が試みられます。これは、テキストが十分に大きい場合は悪くありません。

以下では、chardet（必要に応じてpip install chardet/）を使用してapt-get install python-chardet文字セットを検出する方法を説明します。

$ echo "in Noël" | iconv -f utf8 -t latin1  | chardet
<stdin>: windows-1252 with confidence 0.73

良い候補キャラクタセットを取得したら、ファイルキャラクタセットを「アクティブ」キャラクタセット（私の場合はutf-8）に変更するために使用するか、iconv同様の方法を使用して正しく推測されるかどうかを確認できます。recode

iconv -f windows-1252  -t utf-8 file

一部の文字セット（例：iso-8859-3、iso-8859-1）には共通の文字がたくさんあります。時には完璧な文字セットが見つかったかどうかを確認するのは難しいです。

したがって、関連テキスト（XMLなど）に関連付けられたメタデータを持つことが重要です。

Answer

テキストファイルの文字セットを100％正確に推測することは不可能です。

同様のツールシャダイ、Firefoxブラウザ、ファイル-i明確に定義された文字セット情報がない場合（たとえば、HTMLのヘッダーにメタcharset = ...が含まれている場合は状況が簡単になります）、経験的な方法が試みられます。これは、テキストが十分に大きい場合は悪くありません。

以下では、chardet（必要に応じてpip install chardet/）を使用してapt-get install python-chardet文字セットを検出する方法を説明します。

$ echo "in Noël" | iconv -f utf8 -t latin1  | chardet
<stdin>: windows-1252 with confidence 0.73

良い候補キャラクタセットを取得したら、ファイルキャラクタセットを「アクティブ」キャラクタセット（私の場合はutf-8）に変更するために使用するか、iconv同様の方法を使用して正しく推測されるかどうかを確認できます。recode

iconv -f windows-1252  -t utf-8 file

一部の文字セット（例：iso-8859-3、iso-8859-1）には共通の文字がたくさんあります。時には完璧な文字セットが見つかったかどうかを確認するのは難しいです。

したがって、関連テキスト（XMLなど）に関連付けられたメタデータを持つことが重要です。

Question 4

#!/bin/bash
#
# Search in a file, a known (part of a ) String (i.E.: Begrüßung),
# by testing all encodings
#
[[ $# -ne 2 ]] && echo "Usage: encoding-finder.sh FILE fUnKy_CHAR_FOR_SURE_IN_FILE" && exit
FILE=$1
PATTERN=$2
for enc in $( iconv -l | sed 's/..$//') 
do 
    iconv -f $enc -t UTF-8 $FILE  2>/dev/null | grep -m 1 $PATTERN && echo $enc 
done

たとえば、Begrungという単語を含むファイルを取得すると、おそらくBegrüßungを意味すると推測できます。だから、すべての既知のエンコーディングを介して変換し、正しく変換されたエンコーディングが見つかったことを確認します。

多くの場合、適切に見える複数のエンコーディングがあります。

長いファイルの場合は、数百ページを変換するのではなく、単一のセグメントを切り取ることができます。

だから私はそれを呼ぶでしょう。

encodingfinder.sh FILE Begrüßung

スクリプトは、「Begrüßung」を生成する既知のエンコーディングを使用して変換するかどうかをテストします。

このようなキャラクターを見つけるには、生意気なキャラクターが目立つ傾向があるため、少し少なく役立ちます。一般に、コンテキストを使用して検索する正しい単語を推論できます。しかし、我々はこれがどのバイトであるかを確認し、犯人を見つけるために無限のエンコーディングテーブルにアクセスするために16進エディタを使用したくありません。 :)

Answer

#!/bin/bash
#
# Search in a file, a known (part of a ) String (i.E.: Begrüßung),
# by testing all encodings
#
[[ $# -ne 2 ]] && echo "Usage: encoding-finder.sh FILE fUnKy_CHAR_FOR_SURE_IN_FILE" && exit
FILE=$1
PATTERN=$2
for enc in $( iconv -l | sed 's/..$//') 
do 
    iconv -f $enc -t UTF-8 $FILE  2>/dev/null | grep -m 1 $PATTERN && echo $enc 
done