パラメータとして渡されたすべての「n」個のファイルから、そのファイルに属する各単語の発生回数をどのように計算しますか？

Question 1

私はそれをします：

#! /bin/sh -
# usage: wordcount <file-with-words-to-search-for> [<file>...]
words=$(tr -s '[[:space:]]' '[\n*]' < "${1?No word list provided}" | grep .)
[ -n "$words" ] || exit

shift
for file do
  printf 'File: %s\n' "$file"
  tr -s '[[:space:]]' '[\n*]' | grep -Fxe "$words" | sort | uniq -c | sort -rn
done

（これは各ファイルで少なくとも1回以上見つかった単語の数だけを提供します）。

Answer

私はそれをします：

#! /bin/sh -
# usage: wordcount <file-with-words-to-search-for> [<file>...]
words=$(tr -s '[[:space:]]' '[\n*]' < "${1?No word list provided}" | grep .)
[ -n "$words" ] || exit

shift
for file do
  printf 'File: %s\n' "$file"
  tr -s '[[:space:]]' '[\n*]' | grep -Fxe "$words" | sort | uniq -c | sort -rn
done

（これは各ファイルで少なくとも1回以上見つかった単語の数だけを提供します）。

Question 2

次のように、コマンドラインで提供されているファイルのリストを繰り返すことができます。

for file in "$@"
do
    echo "Considering file ==> $file <=="
done

あなたの単語の一致方法は非常に効率的でなければなりません。以下を使用して単語の発生を検索することもできます。grep -o

echo 'I can cry cryogenic tears when I scry my hands. Can you cry too?' |
    grep -o '\bcry\b'    # \b marks a word boundary

パイプラインを介して結果を入力して、wc -l入力ストリームの発生回数を取得します。

有効にすると、$( ... )あるコマンドの出力を別のコマンドで使用されるテキストに挿入できます。例えば

echo "The date and time right now is $(date)"

最初のファイルを検索せずに単語のリストとして使用するには、追加の作業が必要です。しかし、それらを組み合わせると、次のような結果が得られます。

wordfile="$1"
wordlist=($(cat "$wordfile"))
shift

for file in "$@"
do
    for word in "${wordlist[@]}"
    do
        # echo "$file: $word:" $(grep -o "\b${word}\b" "$file" | wc -l)  # My way
        echo "$file: $word:" $(tr ' ' '\n' <"$file" | grep -c "$word")   # Your way
    done
done

Nワードごとに各ファイルをN回検索するので、それほど効率的ではありません。これがgrep -f役に立ちます。

Answer

次のように、コマンドラインで提供されているファイルのリストを繰り返すことができます。

for file in "$@"
do
    echo "Considering file ==> $file <=="
done

あなたの単語の一致方法は非常に効率的でなければなりません。以下を使用して単語の発生を検索することもできます。grep -o

echo 'I can cry cryogenic tears when I scry my hands. Can you cry too?' |
    grep -o '\bcry\b'    # \b marks a word boundary

パイプラインを介して結果を入力して、wc -l入力ストリームの発生回数を取得します。

有効にすると、$( ... )あるコマンドの出力を別のコマンドで使用されるテキストに挿入できます。例えば

echo "The date and time right now is $(date)"

最初のファイルを検索せずに単語のリストとして使用するには、追加の作業が必要です。しかし、それらを組み合わせると、次のような結果が得られます。

wordfile="$1"
wordlist=($(cat "$wordfile"))
shift

for file in "$@"
do
    for word in "${wordlist[@]}"
    do
        # echo "$file: $word:" $(grep -o "\b${word}\b" "$file" | wc -l)  # My way
        echo "$file: $word:" $(tr ' ' '\n' <"$file" | grep -c "$word")   # Your way
    done
done

Nワードごとに各ファイルをN回検索するので、それほど効率的ではありません。これがgrep -f役に立ちます。

Question 3

fgrep -cw 'word' file1 file2 ... fileN

すると、以下が出力されます。

file1:4
file2:16

1行に1つずつ。すべてのファイルの総数の場合は、次のようにします。

echo "Total: $(( $(fgrep -cw 'word' file1 file2 ... fileN | awk -F: '{ print $NF" + " }') 0 ))"

すると、以下が出力されます。

Total: 20

Answer

fgrep -cw 'word' file1 file2 ... fileN

すると、以下が出力されます。

file1:4
file2:16

1行に1つずつ。すべてのファイルの総数の場合は、次のようにします。

echo "Total: $(( $(fgrep -cw 'word' file1 file2 ... fileN | awk -F: '{ print $NF" + " }') 0 ))"

すると、以下が出力されます。

Total: 20

パラメータとして渡されたすべての「n」個のファイルから、そのファイルに属する各単語の発生回数をどのように計算しますか？

答え1

答え2

答え3

関連情報