プレーンテキストと共に、次のUnicode文字列を含むテキストファイルがあります。
ディレクトリa.txt
{"relationship":{"type:Memberkey","id""824-\u0001\u0019BFGHDICA2166-01-01","source"}
ここにUnicode文字列が\u0001
あり\u0019
、プログラムが失敗します。
そのような文字列を置き換える汎用コマンドはありますか?
答え1
残念ながら、「汎用コマンド」の意味と「代替」の意味によって異なります。
私の考えでは、あなたが意味するのは、Unicodeを最も類似したUTF-8に減らしたいということです。賞
あなたは見つけることができますこのガイド役に立つ。
この文字列を独自の任意のテキストに置き換えることもできます。この場合は、以下を見てください。正規表現。 あなたは見つけることができますこのガイド役に立つ。
編集する:必要なものがわからない場合は、まずファイル自体(コピー)を試してみることをお勧めします。あなたが知っておくべきことの1つは(まだわからない場合)印刷機能注文する。あなたは見つけることができますこのガイド役に立つ。
答え2
これらの制御文字を削除するには、sedを使用できます。
sed -i 's/\\u001[[:xdigit:]]//;s/\\u000[0-9bBcCeEFF]//' your_file
\u000a
CRおよびLF文字がおよびでエンコードされていても、それを保存したいとします\u000d
。