ファイルに与えられた文字だけを保持する方法は？

Question 1

「á」は341です。

いいえ、そうではありません。文字セットは UTF-8 です。ここで á は U+00E1 文字で、2 バイトのシーケンス\xc3\xa1= でエンコードされます\303\241。\341パラメータを書き込むとtrバイトとして解釈されます\341。

拡張ASCIIテーブル文字については不明です。

はい、そうです。「拡張ASCIIテーブル文字」のようなものはありません。 ASCIIは7ビット文字セットです。拡張ASCII文字セットを参照しており、tr実際にサポートされています。tr現在のロケールに従って文字またはバイトを処理します。

tr -cd '\12\40-\176'ASCIIでは、印刷可能文字と改行文字を保存するという意味です。すべてのロケールで「印刷可能な文字」を話すことができます[:print:]。\n改行を表すより明確な方法です。したがって：

tr -cd '\n[:print:]'

残念ながら、一部の実装tr（GNUバージョンを含む）ではUTF-8の文字セットを処理できません。代わりに sed を使用できます。

sed 's/[^[:print:]]//g'

Answer

「á」は341です。

いいえ、そうではありません。文字セットは UTF-8 です。ここで á は U+00E1 文字で、2 バイトのシーケンス\xc3\xa1= でエンコードされます\303\241。\341パラメータを書き込むとtrバイトとして解釈されます\341。

拡張ASCIIテーブル文字については不明です。

はい、そうです。「拡張ASCIIテーブル文字」のようなものはありません。 ASCIIは7ビット文字セットです。拡張ASCII文字セットを参照しており、tr実際にサポートされています。tr現在のロケールに従って文字またはバイトを処理します。

tr -cd '\12\40-\176'ASCIIでは、印刷可能文字と改行文字を保存するという意味です。すべてのロケールで「印刷可能な文字」を話すことができます[:print:]。\n改行を表すより明確な方法です。したがって：

tr -cd '\n[:print:]'

残念ながら、一部の実装tr（GNUバージョンを含む）ではUTF-8の文字セットを処理できません。代わりに sed を使用できます。

sed 's/[^[:print:]]//g'

Question 2

stringsたとえば、使用してください。

$ printf 'XXXhelloá\nYYY' | strings -es -n1
XXXhello
YYY

man strings文字列には、入力文字列またはファイル（-es、7ビット文字のみを含む）からテキストを抽出するためのさまざまなオプション（詳細）があります。

より多くの「特殊」文字を除外するには、sedを使用できます。

# printf 'someárvíztűrő tükörf\túrógép\ntext' | LANG=C sed 's/[\d128-\d255]//g;s/[\d000-\d031]//g' | cat -vte -
somervztr tkrfrgp$
text$

1行にテキストを結合するには、xargsを介してテキストをパイプすると、すべての改行が空白に置き換えられます。

$ printf 'someárvíztűrő tükörf\túrógép\ntext' | xargs | LANG=C sed 's/[\d128-\d255]//g;s/[\d000-\d031]//g;s/\n//g' | cat -vte -
somervztr tkrf rgp text$

Answer

stringsたとえば、使用してください。

$ printf 'XXXhelloá\nYYY' | strings -es -n1
XXXhello
YYY

man strings文字列には、入力文字列またはファイル（-es、7ビット文字のみを含む）からテキストを抽出するためのさまざまなオプション（詳細）があります。

より多くの「特殊」文字を除外するには、sedを使用できます。

# printf 'someárvíztűrő tükörf\túrógép\ntext' | LANG=C sed 's/[\d128-\d255]//g;s/[\d000-\d031]//g' | cat -vte -
somervztr tkrfrgp$
text$

1行にテキストを結合するには、xargsを介してテキストをパイプすると、すべての改行が空白に置き換えられます。

$ printf 'someárvíztűrő tükörf\túrógép\ntext' | xargs | LANG=C sed 's/[\d128-\d255]//g;s/[\d000-\d031]//g;s/\n//g' | cat -vte -
somervztr tkrf rgp text$

ファイルに与えられた文字だけを保持する方法は？

答え1

答え2

関連情報