漢字のみ抽出

Question 1

問題は、UTF-8文字ストリームの生のバイトをフィルタリングすると、UTF-8ファイルからUnicodeシーケンスの一部を食べることになり、無効なバイトシーケンスが発生することです。それは動作しません。代わりに、UTF-8を理解し（ネイティブバイトではなく）Unicodeデータにフィルタを適用するツールを使用する必要があります。

awkどの実装を使用しているかわからないので、Unicodeをサポートしているかどうかはわかりません。しかし、私はPerlが完全にUnicodeで安全であることを知っているので、次のPerlの1行コードが機能するはずです。

perl -CS -p -e 's/[^\s\p{Han}]//g'

\s私はあなたが見たいと思うと仮定します。この\p{Han}ビットは、Unicodeで宣言された文字が漢字（つまり漢字）に使用されるものと一致させたいことをPerlに伝えます。その範囲に含まれていない句読点が必要かどうかわかりません。その場合、句読点も追加する必要があります。

次に、範囲を前の範囲に否定し、最後にグローバル置換コマンド^（s///g）でそれをエンコードして、Perlに最初のスラッシュの後の部分インスタンス（否定された範囲または「この範囲にないすべての項目」）を次に置き換えるように指示します。。 2番目と3番目の前の部分（つまりなし）。

複数の範囲を含める必要がない場合は、[^]構成を中断して同じ一致反転を実行する\Pnot使用に切り替えることができます。\p

残りは、私たちが入力した文字範囲（漢字のUnicode文字とスペース）です。

詳細については、次を参照してください。perldoc perlrePerlが正規表現を処理する方法の説明perldoc perluniprops\p{}可能なUnicode属性（または構文に配置できるビット）のリスト\P{}。

Answer

問題は、UTF-8文字ストリームの生のバイトをフィルタリングすると、UTF-8ファイルからUnicodeシーケンスの一部を食べることになり、無効なバイトシーケンスが発生することです。それは動作しません。代わりに、UTF-8を理解し（ネイティブバイトではなく）Unicodeデータにフィルタを適用するツールを使用する必要があります。

awkどの実装を使用しているかわからないので、Unicodeをサポートしているかどうかはわかりません。しかし、私はPerlが完全にUnicodeで安全であることを知っているので、次のPerlの1行コードが機能するはずです。

perl -CS -p -e 's/[^\s\p{Han}]//g'

\s私はあなたが見たいと思うと仮定します。この\p{Han}ビットは、Unicodeで宣言された文字が漢字（つまり漢字）に使用されるものと一致させたいことをPerlに伝えます。その範囲に含まれていない句読点が必要かどうかわかりません。その場合、句読点も追加する必要があります。

次に、範囲を前の範囲に否定し、最後にグローバル置換コマンド^（s///g）でそれをエンコードして、Perlに最初のスラッシュの後の部分インスタンス（否定された範囲または「この範囲にないすべての項目」）を次に置き換えるように指示します。。 2番目と3番目の前の部分（つまりなし）。

複数の範囲を含める必要がない場合は、[^]構成を中断して同じ一致反転を実行する\Pnot使用に切り替えることができます。\p

残りは、私たちが入力した文字範囲（漢字のUnicode文字とスペース）です。

詳細については、次を参照してください。perldoc perlrePerlが正規表現を処理する方法の説明perldoc perluniprops\p{}可能なUnicode属性（または構文に配置できるビット）のリスト\P{}。

Question 2

これにより、awk次のことができます。

awk '{for(i=1; i<=length;i++) if(substr($0,i,1)>="\xS_INDEX" && substr($0,i,1)<="\xE_INDEX"){printf substr($0,i,1);f=1;} if(f)printf "\n"; f=0}' filename

.asciiの開始インデックスと終了インデックスは次S_INDEXのとおりです。E_INDEXhex

入力の場合：

1243
135
dgfsdaa
125
sdg124
sdf34

数値のみを選択: S_INDEX = 30 および E_INDEX = 39

出力：

Answer

これにより、awk次のことができます。

awk '{for(i=1; i<=length;i++) if(substr($0,i,1)>="\xS_INDEX" && substr($0,i,1)<="\xE_INDEX"){printf substr($0,i,1);f=1;} if(f)printf "\n"; f=0}' filename

.asciiの開始インデックスと終了インデックスは次S_INDEXのとおりです。E_INDEXhex

入力の場合：

1243
135
dgfsdaa
125
sdg124
sdf34

数値のみを選択: S_INDEX = 30 および E_INDEX = 39

出力：

漢字のみ抽出

答え1

答え2

関連情報