sed と awk と一致する grep 文字列と同じ [閉じる]

Question 1

、を使用して、awkすべてのパターンを連想配列のキーとして読み込みます。次に、データファイルを1行ずつ調べ、残りのパターンを各行についてテストします。パターンが一致すると、連想配列から削除されます。

最後に一致しないパターンが出力されます。

NR == FNR { pat[$0] = 1; next }

{
    for (p in pat)
        if (index($0,p) != 0)
            delete pat[p]
}

END {
    for (p in pat)
        print p
}

たとえば、ファイルに保存してscript.awk実行できます。

awk -f script.awk patterns.txt large_strings.txt >unmatched_patterns.txt

これは、文字列比較を実行するためにindex()正規表現マッチング（例：使用）の代わりに使用しますgrep -Fが、データの重複位置で複数のパターン文字列をマッチングすることができます。私の考えではそうしません（grepパターンabと）。baaba

ダミーデータのテスト：

$ cat patterns.txt
a
b
c
d

$ cat strings.txt
abba
bull
cooler

$ awk -f script.awk patterns.txt strings.txt
d

d（ファイルに対応する文字列が見つかりませんstrings.txt。）

Answer

、を使用して、awkすべてのパターンを連想配列のキーとして読み込みます。次に、データファイルを1行ずつ調べ、残りのパターンを各行についてテストします。パターンが一致すると、連想配列から削除されます。

最後に一致しないパターンが出力されます。

NR == FNR { pat[$0] = 1; next }

{
    for (p in pat)
        if (index($0,p) != 0)
            delete pat[p]
}

END {
    for (p in pat)
        print p
}

たとえば、ファイルに保存してscript.awk実行できます。

awk -f script.awk patterns.txt large_strings.txt >unmatched_patterns.txt

これは、文字列比較を実行するためにindex()正規表現マッチング（例：使用）の代わりに使用しますgrep -Fが、データの重複位置で複数のパターン文字列をマッチングすることができます。私の考えではそうしません（grepパターンabと）。baaba

ダミーデータのテスト：

$ cat patterns.txt
a
b
c
d

$ cat strings.txt
abba
bull
cooler

$ awk -f script.awk patterns.txt strings.txt
d

d（ファイルに対応する文字列が見つかりませんstrings.txt。）

Question 2

GNUを使用すると、grep次のことができます。

(
  export LC_ALL=C
  sort -uo patterns.txt patterns.txt # if not already uniqued and sorted in the C locale
  grep -oFf patterns.txt large_strings.txt |
    sort -u |
    comm -13 - patterns.txt > unmatched_patterns
)

理論的には、次を見つけるため、@Kusalanandaの答えよりも遅くなければなりません。みんなパターンの発生回数です。

Answer

GNUを使用すると、grep次のことができます。

(
  export LC_ALL=C
  sort -uo patterns.txt patterns.txt # if not already uniqued and sorted in the C locale
  grep -oFf patterns.txt large_strings.txt |
    sort -u |
    comm -13 - patterns.txt > unmatched_patterns
)

理論的には、次を見つけるため、@Kusalanandaの答えよりも遅くなければなりません。みんなパターンの発生回数です。

sed と awk と一致する grep 文字列と同じ [閉じる]

答え1

答え2

関連情報