すべての形式の正規化を含むファイルでUnicode（UTF-8）テキストを見つけることができるツールは何ですか？

Question

正規表現エンジン（PCRE2）を使用してこの問題を解決しました。

デフォルトでは、ユーザーの検索文字列をすべての可能なUTF-8およびUTF-16表現に変換するために作成したコードを使用し、必要に応じてエスケープしながら、代わりにそれらをすべて正規表現に結合しました。すべての文字（00UTF -16 文字バイトなど\x00）でエンコードされます。

意思決定ツリーを構築する正規表現の特性により、検索速度が大幅に高速化されます。

これにより、ファイルにエンコードされた形式に関係なく、すべてのバイナリファイルから検索文字列を検索できます。

私のプログラムの1つにこの機能が必要なので、プログラミングソリューションも歓迎することに注意する必要があります（これはStackOverflowサイトにある方が良いです）。

Answer 1

正規表現エンジン（PCRE2）を使用してこの問題を解決しました。

デフォルトでは、ユーザーの検索文字列をすべての可能なUTF-8およびUTF-16表現に変換するために作成したコードを使用し、必要に応じてエスケープしながら、代わりにそれらをすべて正規表現に結合しました。すべての文字（00UTF -16 文字バイトなど\x00）でエンコードされます。

意思決定ツリーを構築する正規表現の特性により、検索速度が大幅に高速化されます。

これにより、ファイルにエンコードされた形式に関係なく、すべてのバイナリファイルから検索文字列を検索できます。

私のプログラムの1つにこの機能が必要なので、プログラミングソリューションも歓迎することに注意する必要があります（これはStackOverflowサイトにある方が良いです）。

関連情報