問題のあるgrepを解決するためにファイルタイプとエンコーディングを比較する方法はありますか？

Question 1

最も簡単な方法は、問題ファイルの1つから次に数行を渡すことですod。

head Herbert-02-Transformation.txt | od -c

あるいは、最初の行に奇妙な点がない場合は、特定の文字列とその周囲のいくつかの文字を探します。

od -c Herbert-02-Transformation.txt | grep -C 5 "\["

たとえば、

$ echo "lorem ipsum [t] dolor sit amet" > foo.txt
$ od -c foo.txt 
0000000   l   o   r   e   m       i   p   s   u   m       [   t   ]    
0000020   d   o   l   o   r       s   i   t       a   m   e   t  \n
0000037

「奇妙な」文字が表示されますod。

別の便利なツールは、fileファイル形式やその他の情報を返します。

$ file --mime foo.txt 
foo.txt: text/plain; charset=us-ascii

Answer

最も簡単な方法は、問題ファイルの1つから次に数行を渡すことですod。

head Herbert-02-Transformation.txt | od -c

あるいは、最初の行に奇妙な点がない場合は、特定の文字列とその周囲のいくつかの文字を探します。

od -c Herbert-02-Transformation.txt | grep -C 5 "\["

たとえば、

$ echo "lorem ipsum [t] dolor sit amet" > foo.txt
$ od -c foo.txt 
0000000   l   o   r   e   m       i   p   s   u   m       [   t   ]    
0000020   d   o   l   o   r       s   i   t       a   m   e   t  \n
0000037

「奇妙な」文字が表示されますod。

別の便利なツールは、fileファイル形式やその他の情報を返します。

$ file --mime foo.txt 
foo.txt: text/plain; charset=us-ascii

Question 2

そのエンコーディングに属さない不正な文字を含む既知のエンコーディングのテキストファイルがある場合に使用できますiconv -c -f charset -t charset file。選択しました。

たとえば、ウムラウトを削除するには、次のようにします。

$ echo Nähkästchen | iconv -c -f us-ascii -t us-ascii
Nhkstchen

その文字が意味がある場合、検索と置換がより適切である可能性があります。実際に内部に何が入っているかによって異なります。

Answer

そのエンコーディングに属さない不正な文字を含む既知のエンコーディングのテキストファイルがある場合に使用できますiconv -c -f charset -t charset file。選択しました。

たとえば、ウムラウトを削除するには、次のようにします。

$ echo Nähkästchen | iconv -c -f us-ascii -t us-ascii
Nhkstchen

その文字が意味がある場合、検索と置換がより適切である可能性があります。実際に内部に何が入っているかによって異なります。

問題のあるgrepを解決するためにファイルタイプとエンコーディングを比較する方法はありますか？

答え1

答え2

関連情報