`xargs`がN引数の最大倍数を使用するようにする

Question 1

これは間違ったアプローチです。名前がスペースで区切られた単語の1つで、これらのIDの1つを持つすべてのファイルを見つけることが目的である場合は、次のようにします。

find /dir -type f -print0 |
  gawk '
    !ids_processed {ids[$0]; next}
    {
      n = split(tolower($NF), words, " ")
      for (i = 1; i <= n; i++)
        if (words[i] in ids) {
          print
          break
        }
    }' ids.txt ids_processed=1 RS='\0' FS=/ -

その後、ファイルリストを一度だけ処理して100,000個のIDを見つけることは、最大100,000個の正規表現/ワイルドカードマッチングを実行するのではなく、ハッシュテーブルを見つけることです。

Answer

これは間違ったアプローチです。名前がスペースで区切られた単語の1つで、これらのIDの1つを持つすべてのファイルを見つけることが目的である場合は、次のようにします。

find /dir -type f -print0 |
  gawk '
    !ids_processed {ids[$0]; next}
    {
      n = split(tolower($NF), words, " ")
      for (i = 1; i <= n; i++)
        if (words[i] in ids) {
          print
          break
        }
    }' ids.txt ids_processed=1 RS='\0' FS=/ -

その後、ファイルリストを一度だけ処理して100,000個のIDを見つけることは、最大100,000個の正規表現/ワイルドカードマッチングを実行するのではなく、ハッシュテーブルを見つけることです。

Question 2

私は何をしますか：

すべてのファイル名を一時ファイルに保存するスクリプトを作成します。

# maybe run this from cron or behind inotifywait
find dir -type f -print > /tmp/filelist

次に、入力ファイルを使用して必要に応じて照会を実行します。

fgrep -if hexids /tmp/filelist

-wif代わりに使用を提案することもできますが、他のコメントを見ると、-ifあなたの質問に正確な情報を提供したかどうかはわかりません。man grepより多くの情報を知りたいです。

Answer