ファイルAの各行について、ファイルBの一致するすべての行をパターンに置き換えます。

Question 1

$ cat tst.awk
BEGIN {
    dots = sprintf("%*s",1000,"")
    gsub(/ /,".",dots)
    resSingle = "res-single"
    resLength = "res-length"
}
{ lc = tolower($0) }
NR==FNR {
    lgth = length($0)
    str2lgth[lc] = lgth
    str2dots[lc] = substr(dots,1,lgth)
    next
}
{
    for (str in str2lgth) {
        if ( s=index(lc,str) ) {
            bef = substr($0,1,s-1)
            aft = substr($0,s+str2lgth[str])
            print bef "." aft > resSingle
            print bef str2dots[str] aft > resLength
        }
    }
}

。

$ awk -f tst.awk fileA fileB

$ cat res-single
12.1991
ari.#!
.agnes#!
.45

$ cat res-length
12....1991
ari.....#!
...agnes#!
...45

上記は、fileAに1000文字を超える行がないと仮定しています。これが間違っている場合は、より大きな数字を選択するか、必要に応じてコードを追加して計算できます。また、fileAの行がfileBで見つかった順序に興味がなく、正規表現比較ではなく文字列比較を実行したいとします。どちらも欲しいものではない場合はマイナーな調整です。

以下のコメントに応じて編集してください。 fileAで行の最大長を静的に定義できない場合（100,000文字を超えてはいけませんか？）、上記の内容を修正して最大値を計算し、fileAの行を変更する方法は次のとおりです。すべて小文字です：

NR==FNR {
    lgth = length($0)
    str2lgth[$0] = lgth
    maxLgth = (lgth > maxLgth ? lgth : maxLgth)
    next
}
FNR==1 {
    dots = sprintf("%*s",maxLgth,"")
    gsub(/ /,".",dots)
    for ( str in str2lgth ) {
        str2dots[str] = substr(dots,1,str2lgth[str])
    }
    resSingle = "res-single"
    resLength = "res-length"
}
{
    lc = tolower($0)
    for (str in str2lgth) {
        if ( s=index(lc,str) ) {
            bef = substr($0,1,s-1)
            aft = substr($0,s+str2lgth[str])
            print bef "." aft > resSingle
            print bef str2dots[str] aft > resLength
        }
    }
}

Answer

$ cat tst.awk
BEGIN {
    dots = sprintf("%*s",1000,"")
    gsub(/ /,".",dots)
    resSingle = "res-single"
    resLength = "res-length"
}
{ lc = tolower($0) }
NR==FNR {
    lgth = length($0)
    str2lgth[lc] = lgth
    str2dots[lc] = substr(dots,1,lgth)
    next
}
{
    for (str in str2lgth) {
        if ( s=index(lc,str) ) {
            bef = substr($0,1,s-1)
            aft = substr($0,s+str2lgth[str])
            print bef "." aft > resSingle
            print bef str2dots[str] aft > resLength
        }
    }
}

。

$ awk -f tst.awk fileA fileB

$ cat res-single
12.1991
ari.#!
.agnes#!
.45

$ cat res-length
12....1991
ari.....#!
...agnes#!
...45

上記は、fileAに1000文字を超える行がないと仮定しています。これが間違っている場合は、より大きな数字を選択するか、必要に応じてコードを追加して計算できます。また、fileAの行がfileBで見つかった順序に興味がなく、正規表現比較ではなく文字列比較を実行したいとします。どちらも欲しいものではない場合はマイナーな調整です。

以下のコメントに応じて編集してください。 fileAで行の最大長を静的に定義できない場合（100,000文字を超えてはいけませんか？）、上記の内容を修正して最大値を計算し、fileAの行を変更する方法は次のとおりです。すべて小文字です：

NR==FNR {
    lgth = length($0)
    str2lgth[$0] = lgth
    maxLgth = (lgth > maxLgth ? lgth : maxLgth)
    next
}
FNR==1 {
    dots = sprintf("%*s",maxLgth,"")
    gsub(/ /,".",dots)
    for ( str in str2lgth ) {
        str2dots[str] = substr(dots,1,str2lgth[str])
    }
    resSingle = "res-single"
    resLength = "res-length"
}
{
    lc = tolower($0)
    for (str in str2lgth) {
        if ( s=index(lc,str) ) {
            bef = substr($0,1,s-1)
            aft = substr($0,s+str2lgth[str])
            print bef "." aft > resSingle
            print bef str2dots[str] aft > resLength
        }
    }
}

Question 2

ここでは、単純なPerlベースのアプローチを使用できます。

方法：

キーがfileAの小文字の行（改行なし）で、値が等しい点であるハッシュ％hを埋めます。

次に、fileBの各行に対して、ハッシュ％hのキーが大文字と小文字を区別せずに存在するかどうかをテストします。そうであれば、事前マッチング、マッチング、およびポストマッチングデータをres-singleおよびres-lengthファイルとして印刷します。最初の一致のみを希望する場合は、「最後の」お問い合わせコメントをオフにしてください。

$ perl -Mautodie -lne '
    BEGIN {
     open *{"FH$_"}, ">", qw[res-single res-length][$_] for 0..1;
     do{
       local @ARGV = pop;
       $h{do{chomp;lc;}} = s/././gr =~ tr/\n//dr while <>;
       @h = keys %h;
      };
    }
    for my $h ( @h ) {
      if ( /\Q$h/pi ) {
        my($p, $q) = (${^PREMATCH}, ${^POSTMATCH});
        print {*{"FH$_"}} $p, (".", $h{$h})[$_], $q for 0..1;
        #last;
      }
    }
' fileB fileA

$ more res-*

::::::::::::::
res-length
::::::::::::::
12....1991
ari.....#!
...agnes#!
...45

::::::::::::::
res-single
::::::::::::::
12.1991
ari.#!
.agnes#!
.45

Answer

ここでは、単純なPerlベースのアプローチを使用できます。

方法：

キーがfileAの小文字の行（改行なし）で、値が等しい点であるハッシュ％hを埋めます。

次に、fileBの各行に対して、ハッシュ％hのキーが大文字と小文字を区別せずに存在するかどうかをテストします。そうであれば、事前マッチング、マッチング、およびポストマッチングデータをres-singleおよびres-lengthファイルとして印刷します。最初の一致のみを希望する場合は、「最後の」お問い合わせコメントをオフにしてください。

$ perl -Mautodie -lne '
    BEGIN {
     open *{"FH$_"}, ">", qw[res-single res-length][$_] for 0..1;
     do{
       local @ARGV = pop;
       $h{do{chomp;lc;}} = s/././gr =~ tr/\n//dr while <>;
       @h = keys %h;
      };
    }
    for my $h ( @h ) {
      if ( /\Q$h/pi ) {
        my($p, $q) = (${^PREMATCH}, ${^POSTMATCH});
        print {*{"FH$_"}} $p, (".", $h{$h})[$_], $q for 0..1;
        #last;
      }
    }
' fileB fileA

$ more res-*

::::::::::::::
res-length
::::::::::::::
12....1991
ari.....#!
...agnes#!
...45

::::::::::::::
res-single
::::::::::::::
12.1991
ari.#!
.agnes#!
.45

Question 3

最適化されたCソリューションhttps://github.com/dizcza/people-names-as-passwords/blob/master/src/create_masks.c

私はtrieデータ構造を使用し、12分で2B行fileBと43,000行を解析できました！fileA

ご意見ありがとうございます。

Answer

最適化されたCソリューションhttps://github.com/dizcza/people-names-as-passwords/blob/master/src/create_masks.c

私はtrieデータ構造を使用し、12分で2B行fileBと43,000行を解析できました！fileA

ご意見ありがとうございます。

ファイルAの各行について、ファイルBの一致するすべての行をパターンに置き換えます。

プログラム

演算

はい

単純化された作業アルゴリズム

Pythonの実装

答え1

答え2

答え3

関連情報