UTF-8ロケールでUTF-16LEファイルを正規表現検索する方法は？

Question 1

$ iconv -f UTF-16LE -t UTF-8 myfile.txt | grep pattern

他の質問と同様に、行末変換が必要になる場合がありますが、要点は、基本ツールを直接使用できるようにファイルをデフォルトのエンコードに変換する必要があることです。

Answer

私の答えは基本的に次のようになります。このトピックに関するその他の質問:

$ iconv -f UTF-16LE -t UTF-8 myfile.txt | grep pattern

他の質問と同様に、行末変換が必要になる場合がありますが、要点は、基本ツールを直接使用できるようにファイルをデフォルトのエンコードに変換する必要があることです。

Question 2

インストールするripgrep便利UTF-16をサポートします。

たとえば、

rg pattern filename

ripgrepは、UTF-16、latin-1、GBK、EUC-JP、Shift_JISなどのUTF-8以外のテキストエンコーディングでファイル検索をサポートします。（UTF-16自動検出のいくつかのサポートが提供されています。他のテキストエンコーディングは/で-E指定する必要があります--encoding flag.）

すべての行を印刷するにはrg -N . filename：

Answer

インストールするripgrep便利UTF-16をサポートします。

たとえば、

rg pattern filename

ripgrepは、UTF-16、latin-1、GBK、EUC-JP、Shift_JISなどのUTF-8以外のテキストエンコーディングでファイル検索をサポートします。（UTF-16自動検出のいくつかのサポートが提供されています。他のテキストエンコーディングは/で-E指定する必要があります--encoding flag.）

すべての行を印刷するにはrg -N . filename：

Question 3

私はウォーレンの答えがより良いと信じています一般的な* nixソリューションですが、このPerlスクリプトは私が望む方法で正確に動作します（やや非標準的な状況では）。検索パターンの現在の形式を
少し変更する必要があります\x09\x0A\x09\x2A\x09\x30\x00\s09
。\x{090A}\x{092A}\x{0930}\x{0009}

それは1つのプロセスですべてを行いますが、これが私が求めているものです。

#! /usr/bin/env perl
use strict;
use warnings;
die "3 args are required" if scalar @ARGV != 3;
my $if =$ARGV[0];
my $of =$ARGV[1];
my $pat=$ARGV[2];
open(my $ifh, '<:encoding(UTF-16LE)', $if) or warn "Can't open $if: $!";
open(my $ofh, '>:encoding(UTF-16LE)', $of) or warn "Can't open $of: $!";
while (<$ifh>) { print $ofh $_ if /^$pat/; }

Answer

私はウォーレンの答えがより良いと信じています一般的な* nixソリューションですが、このPerlスクリプトは私が望む方法で正確に動作します（やや非標準的な状況では）。検索パターンの現在の形式を
少し変更する必要があります\x09\x0A\x09\x2A\x09\x30\x00\s09
。\x{090A}\x{092A}\x{0930}\x{0009}

それは1つのプロセスですべてを行いますが、これが私が求めているものです。

#! /usr/bin/env perl
use strict;
use warnings;
die "3 args are required" if scalar @ARGV != 3;
my $if =$ARGV[0];
my $of =$ARGV[1];
my $pat=$ARGV[2];
open(my $ifh, '<:encoding(UTF-16LE)', $if) or warn "Can't open $if: $!";
open(my $ofh, '>:encoding(UTF-16LE)', $of) or warn "Can't open $of: $!";
while (<$ifh>) { print $ofh $_ if /^$pat/; }

Question 4

ウグレフ(Universal grep)はUnicode、UTF-8/16/32ファイルをサポートし、誤ったUnicodeを検出して正しい結果を保証し、テキストとバイナリファイルを表示し、高速で無料です.

ウグレフUTF-8/16/32 入力やその他の形式を検索します。オプション-Qを使用すると、ISO-8859-1〜16、EBCDIC、コードページ437、850、858、1250〜1258、MacRoman、KOI8などのさまざまなファイル形式を検索できます。

一致するUnicode文字パターンを指定してください。

ugrep -QUTF-16LE "ऊपर" filename

または16進コードポイントを使用してください。

ugrep -QUTF-16LE "\x{090A}\x{092A}\x{0930}" filename

バラよりGitHubのugrepもっと学ぶ。

Answer