巨大なファイルから多数のパターンをGrepします。

Question 1

もちろん、問題は大きなファイルに対してgrepを10,000回実行することです。両方のファイルを一度だけ読み取る必要があります。スクリプト言語を使用したくない場合は、次のようにします。

ファイル1からすべての数値を抽出してソートします。
ファイル2からすべての数値を抽出してソートします。
comm2番目のリストの内容だけを取得するには、ソートされたリストを実行してください。

このような：

$ grep -o '^[0-9]\{12\}$' file1 | sort -u -o file1.sorted
$ grep -o  '[0-9]\{12\}'  file2 | sort -u -o file2.sorted
$ comm -13 file1.sorted file2.sorted > file3

望むよりman comm。

ログファイルなどの大容量ファイルを毎日切り捨てることができる場合は、ソートされた数のキャッシュを保持でき、毎回解析する必要はありません。

Answer

もちろん、問題は大きなファイルに対してgrepを10,000回実行することです。両方のファイルを一度だけ読み取る必要があります。スクリプト言語を使用したくない場合は、次のようにします。

ファイル1からすべての数値を抽出してソートします。
ファイル2からすべての数値を抽出してソートします。
comm2番目のリストの内容だけを取得するには、ソートされたリストを実行してください。

このような：

$ grep -o '^[0-9]\{12\}$' file1 | sort -u -o file1.sorted
$ grep -o  '[0-9]\{12\}'  file2 | sort -u -o file2.sorted
$ comm -13 file1.sorted file2.sorted > file3

望むよりman comm。

ログファイルなどの大容量ファイルを毎日切り捨てることができる場合は、ソートされた数のキャッシュを保持でき、毎回解析する必要はありません。

Question 2

awkこの回答は公開された回答に基づいています。痛み..同じ状況では、この方法（私のシステムでは）
よりも倍速です。comm600万行メインファイルと10000キー...（FNR、NRを使用するように更新されました）

現在のシステムよりも高速で、awkお使いのコンピュータに少しの空き容量を提供しますが、データ処理が説明のように集中している場合は、専用のデータベースに切り替えると最良の結果が得られることに注意してください。 SQLite、MySQL...

awk '{ if (/^[^0-9]/) { next }              # Skip lines which do not hold key values
       if (FNR==NR) { main[$0]=1 }          # Process keys from file "mainfile"
       else if (main[$0]==0) { keys[$0]=1 } # Process keys from file "keys"
     } END { for(key in keys) print key }' \
       "mainfile" "keys" >"keys.not-in-main"

# For 6 million lines in "mainfile" and 10 thousand keys in "keys"

# The awk  method
# time:
#   real    0m14.495s
#   user    0m14.457s
#   sys     0m0.044s

# The comm  method
# time:
#   real    0m27.976s
#   user    0m28.046s
#   sys     0m0.104s

Answer

awkこの回答は公開された回答に基づいています。痛み..同じ状況では、この方法（私のシステムでは）
よりも倍速です。comm600万行メインファイルと10000キー...（FNR、NRを使用するように更新されました）

現在のシステムよりも高速で、awkお使いのコンピュータに少しの空き容量を提供しますが、データ処理が説明のように集中している場合は、専用のデータベースに切り替えると最良の結果が得られることに注意してください。 SQLite、MySQL...

awk '{ if (/^[^0-9]/) { next }              # Skip lines which do not hold key values
       if (FNR==NR) { main[$0]=1 }          # Process keys from file "mainfile"
       else if (main[$0]==0) { keys[$0]=1 } # Process keys from file "keys"
     } END { for(key in keys) print key }' \
       "mainfile" "keys" >"keys.not-in-main"

# For 6 million lines in "mainfile" and 10 thousand keys in "keys"

# The awk  method
# time:
#   real    0m14.495s
#   user    0m14.457s
#   sys     0m0.044s

# The comm  method
# time:
#   real    0m27.976s
#   user    0m28.046s
#   sys     0m0.104s

Question 3

はい、必ずデータベースを使用してください。このタイプの作業用に設計されています。

Answer

はい、必ずデータベースを使用してください。このタイプの作業用に設計されています。

Question 4

データが多すぎる場合は、データベースに切り替える必要があります。同時に、適切なパフォーマンスに近づけるために必要なことは、file1各キーを個別に検索しないことです。grep一度に除外されていないすべてのキーを抽出するには、一度実行してください。キーを含まない行も返されるため、grepフィルタリングされます。

grep -o '[0-9]\{12\}' file2 |
grep -Fxv -f - file1 |
grep -vx '[0-9]\{12\}' >file3

（-Fx文字通り行全体を検索することを意味します。-f -標準入力からパターンリストを読むことを意味します。）

Answer

データが多すぎる場合は、データベースに切り替える必要があります。同時に、適切なパフォーマンスに近づけるために必要なことは、file1各キーを個別に検索しないことです。grep一度に除外されていないすべてのキーを抽出するには、一度実行してください。キーを含まない行も返されるため、grepフィルタリングされます。

grep -o '[0-9]\{12\}' file2 |
grep -Fxv -f - file1 |
grep -vx '[0-9]\{12\}' >file3

（-Fx文字通り行全体を検索することを意味します。-f -標準入力からパターンリストを読むことを意味します。）

巨大なファイルから多数のパターンをGrepします。

答え1

答え2

答え3

答え4

関連情報