このiconv
コマンドはファイルのエンコーディングを変更できます。しかし、テキストファイルのファイルエンコーディングを探すコマンドはありますか?さらに、各国で使用されているファイルエンコーディング標準を探してみたいと思います。これにより、エンコードを正しいものに変更できます。国際標準化機構基準。
ファイルエンコーディングを見つけるためのコマンドは何ですか?。 txt拡張する。またはその他.pyまたは。氏、ソースコードファイル?
その後、正しい国コードに変更してください。国家基準に基づいています。正しいエンディアン形式やその他の関連文書への参照を見つけようとしています。
アメリカで作成され、ロシア語形式のUTF-8テキストファイルを作成します。まるでロシア語形式の互換性で作られたようです。
答え1
使用file
。詳しくはfile(1)
マニュアルページをご覧くださいmagic(5)
。以下はいくつかの例です。
さまざまな種類のファイルの束をディレクトリにコピーしました。
$ ls -l
total 389
-rw-r--r-- 1 cas cas 372976 Apr 24 19:09 a.txt
-rw-r--r-- 1 cas cas 14 Apr 24 19:09 b.txt
-rw-r--r-- 1 cas cas 12060 Apr 24 19:09 c.h
-rwxr-xr-x 1 cas cas 5706 Apr 24 19:09 d.sh*
-rwxr-xr-x 1 cas cas 197 Apr 24 19:09 e.pl*
-rw-r--r-- 1 cas cas 6 Apr 24 19:09 f.txt
-rwxr-xr-x 1 cas cas 203072 Apr 24 19:09 g*
-rwxr-xr-x 1 cas cas 79984 Apr 24 19:09 h.c
-rw-r--r-- 1 cas cas 2975 Apr 24 19:09 i.py
-rw-r--r-- 1 cas cas 648 Apr 24 19:09 j.csv
file
/etc/magic
最良の推測は、以下で見つかったパターンを使用して行われます。
$ file *
a.txt: UTF-8 Unicode (with BOM) text, with very long lines, with CRLF line terminators
b.txt: Little-endian UTF-16 Unicode text, with no line terminators
c.h: C++ source, ASCII text
d.sh: Bourne-Again shell script, ASCII text executable
e.pl: Perl script text executable
f.txt: ASCII text
g: ELF 64-bit LSB pie executable, x86-64, version 1 (SYSV), dynamically linked, interpreter /lib64/ld-linux-x86-64.so.2, BuildID[sha1]=4bb4d8a0059d50d87638057168576f5ef205efd4, for GNU/Linux 3.2.0, stripped
h.c: C source, ASCII text, with CRLF line terminators
i.py: Python script, ASCII text executable
j.csv: CSV text
このファイルの場合は100%正確でした。完全に識別されました。これはほとんど事実ですが、完璧ではなく、時には間違っている可能性があります。
ファイル名の「拡張子」(.txt、.py、.cなど)は関係ありません。file
ファイルの内容を調べて、それが何であるかを確認します。
また、どんな種類の無言劇を教えてもらえます。
$ file --mime-type *
a.txt: text/plain
b.txt: text/plain
c.h: text/x-c++
d.sh: text/x-shellscript
e.pl: text/x-perl
f.txt: text/plain
g: application/x-pie-executable
h.c: text/x-c
i.py: text/x-script.python
j.csv: application/csv
そして、彼らが使用するエンコーディングは何ですか?
$ file --mime-encoding *
a.txt: utf-8
b.txt: utf-16le
c.h: us-ascii
d.sh: us-ascii
e.pl: us-ascii
f.txt: us-ascii
g: binary
h.c: us-ascii
i.py: us-ascii
j.csv: us-ascii