テキストファイルのUnicode文字列

テキストファイルのUnicode文字列

プレーンテキストと共に、次のUnicode文字列を含むテキストファイルがあります。

ディレクトリa.txt

{"relationship":{"type:Memberkey","id""824-\u0001\u0019BFGHDICA2166-01-01","source"}

ここにUnicode文字列が\u0001あり\u0019、プログラムが失敗します。

そのような文字列を置き換える汎用コマンドはありますか?

答え1

残念ながら、「汎用コマンド」の意味と「代替」の意味によって異なります。

私の考えでは、あなたが意味するのは、Unicodeを最も類似したUTF-8に減らしたいということです。

あなたは見つけることができますこのガイド役に立つ。

この文字列を独自の任意のテキストに置き換えることもできます。この場合は、以下を見てください。正規表現。 あなたは見つけることができますこのガイド役に立つ。

編集する:必要なものがわからない場合は、まずファイル自体(コピー)を試してみることをお勧めします。あなたが知っておくべきことの1つは(まだわからない場合)印刷機能注文する。あなたは見つけることができますこのガイド役に立つ。

答え2

これらの制御文字を削除するには、sedを使用できます。

sed -i 's/\\u001[[:xdigit:]]//;s/\\u000[0-9bBcCeEFF]//' your_file

\u000aCRおよびLF文字がおよびでエンコードされていても、それを保存したいとします\u000d

関連情報