grepファイルの20,000ワード

Question 1

私のフォルダには5000個のファイルがあります。ファイル名はXX0000001～XX0005000です。

ファイルセットを繰り返すには、for f in XX0*ここと同じシェルglobを使用します。一連の数字を繰り返す必要がある場合、Bash は数字を 8 進数で表示するので、前の 0 に注意する必要があります。たとえば、ループを試して、数字を印刷して最後の数字を見てください。

start_number=0000001
end_number=0005000
for ((i=start_number; i <=end_number; i++)); do
   echo $i
done |tail -1

出力はyes 2560、noです5000。しかし、zshではそうではなく、どのシェルを実行しているのか言及していませんが、問題は指摘する価値があります。

ここでは、

   while read -r word; do
      awk -v word="$word" '{for (i=1; i<=NF; i++) if($1 ~ word) {print; next}}' "$filename" >> "$output_file"
   done < "$words_file"

これが何をしているのかはわかりませんが、AWKスクリプトでは入力行のすべてのフィールドを繰り返しますが、$1ループ内ではフィールド1（）のみを参照していることがわかりました。

ここで、ファイルが次のようになるとします。

% cat XX0000001
Big1 Big7
% cat XX0000002
Big5 Big10
% cat target.txt
#Big1
This_is_a_file_containing_xxxxx
#Big2
This_is_a_file_containing_xxxxx
[...]

Big1つまり、ファイルの1行に複数の異なるパターン（たとえば、および）があります（たとえば、1行に1つずつ）。また、どのパターンにも一致する行を見つけて、次の行と一緒に印刷したいと思います。Big7XX0*target.txt

これで、標準のgrepは一致後に「1行」を印刷でき、同時に複数のパターンを見つけることができます。この-fオプションは、行がパターンを形成するファイルの名前を使用するため、XX0*各パターンが単一の行として表示されるようにファイルを前処理する必要があります。すべてのスペースを改行文字に変更するだけですtr。最も簡単な方法は、プロセスオーバーライドを使用してtrtoの出力をgrepファイルとして使用することですが、一時ファイルを使用することもできます（または出力をtoにパイプすることもできますtr）grep -f -。

たとえば、

% grep -A1 -f <(tr ' ' '\n' < XX0000001 ) target.txt
#Big1
This_is_a_file_containing_xxxxx
--
#Big7
This_is_a_file_containing_xxxxx
--
#Big10
This_is_a_file_containing_xxxxx

もちろん、Big1その行でもパターンが発生するため、#Big10一致します。（しかし、grepオプションを使用してフルワードマッチングを要求できます-w。）区切り文字を削除するには、--結果をパイプすることができますgrep -ve --。

これがどれだけ効率的かはgrepの実装によって異なりますが、この目的のために設計されたツールとして、シェルスクリプトで同じことを行うよりも最適化の可能性が高くなります。シェルスクリプトは遅いです。すべてのパターンがフォーマットであれば、Big*共通部分を一度だけ見つけることが賢明です。パターンリストを単一のパターンに変更することもできます。Big(1|5|7|10)正規表現エンジンでうまく機能できることを願っています。

Answer

私のフォルダには5000個のファイルがあります。ファイル名はXX0000001～XX0005000です。

ファイルセットを繰り返すには、for f in XX0*ここと同じシェルglobを使用します。一連の数字を繰り返す必要がある場合、Bash は数字を 8 進数で表示するので、前の 0 に注意する必要があります。たとえば、ループを試して、数字を印刷して最後の数字を見てください。

start_number=0000001
end_number=0005000
for ((i=start_number; i <=end_number; i++)); do
   echo $i
done |tail -1

出力はyes 2560、noです5000。しかし、zshではそうではなく、どのシェルを実行しているのか言及していませんが、問題は指摘する価値があります。

ここでは、

   while read -r word; do
      awk -v word="$word" '{for (i=1; i<=NF; i++) if($1 ~ word) {print; next}}' "$filename" >> "$output_file"
   done < "$words_file"

これが何をしているのかはわかりませんが、AWKスクリプトでは入力行のすべてのフィールドを繰り返しますが、$1ループ内ではフィールド1（）のみを参照していることがわかりました。

ここで、ファイルが次のようになるとします。

% cat XX0000001
Big1 Big7
% cat XX0000002
Big5 Big10
% cat target.txt
#Big1
This_is_a_file_containing_xxxxx
#Big2
This_is_a_file_containing_xxxxx
[...]

Big1つまり、ファイルの1行に複数の異なるパターン（たとえば、および）があります（たとえば、1行に1つずつ）。また、どのパターンにも一致する行を見つけて、次の行と一緒に印刷したいと思います。Big7XX0*target.txt

これで、標準のgrepは一致後に「1行」を印刷でき、同時に複数のパターンを見つけることができます。この-fオプションは、行がパターンを形成するファイルの名前を使用するため、XX0*各パターンが単一の行として表示されるようにファイルを前処理する必要があります。すべてのスペースを改行文字に変更するだけですtr。最も簡単な方法は、プロセスオーバーライドを使用してtrtoの出力をgrepファイルとして使用することですが、一時ファイルを使用することもできます（または出力をtoにパイプすることもできますtr）grep -f -。

たとえば、

% grep -A1 -f <(tr ' ' '\n' < XX0000001 ) target.txt
#Big1
This_is_a_file_containing_xxxxx
--
#Big7
This_is_a_file_containing_xxxxx
--
#Big10
This_is_a_file_containing_xxxxx

もちろん、Big1その行でもパターンが発生するため、#Big10一致します。（しかし、grepオプションを使用してフルワードマッチングを要求できます-w。）区切り文字を削除するには、--結果をパイプすることができますgrep -ve --。

これがどれだけ効率的かはgrepの実装によって異なりますが、この目的のために設計されたツールとして、シェルスクリプトで同じことを行うよりも最適化の可能性が高くなります。シェルスクリプトは遅いです。すべてのパターンがフォーマットであれば、Big*共通部分を一度だけ見つけることが賢明です。パターンリストを単一のパターンに変更することもできます。Big(1|5|7|10)正規表現エンジンでうまく機能できることを願っています。

Question 2

多数のクエリに対して非常に大きなファイルを検索しており、シェル/標準ツールで「クイック」ソリューションを見つける可能性はほとんどありません。つまり、あなたのアプローチは特に非効率的だと思います。

おそらく次のようになります（テストされていません）：

words_file=target.txt
output_folder="output_results"
mkdir -p "$output_folder"
for filename in XX* ; do 
  output_file="$output_folder/output_${filename}.txt"
  grep -f "$filename" -Fx -A1 "$words_file" > "$output_file"
done

しかし、正直なところ、その速度も速くはないと思います。

これはマルチスレッドであり、スループットを向上させることができます。

これはマルチスレッドの選択肢です。threadsこの値を動作環境に合わせて調整する必要があります。

threads=4
words_file=target.txt
output_folder="output_results"
mkdir -p "$output_folder"

find . -maxdepth 1 -type f -name 'XX*' -print0 | \
  xargs -I% -0 -P$threads bash -c '
    file="%"
    output_file="$output_folder/output_${file#./}.txt"
    grep -f "%" -Fx -A1 "$words_file" > "$output_file"
  '

これによって得られる利点は、使用可能なメモリ、CPUコアの数、ストレージ速度、およびサーバーの他のアクティビティなどのハードウェア要素によって異なります。

Answer