ファイル内の単語の発生率を見つける方法

Question 1

次のようにファイルの総単語数を取得できます。

nw=`wc -w < /path/to/file`

ワード/パターンの発生回数

occurrences=`egrep -c <pattern> /path/to/file`

その後、パーセンテージを簡単に計算し、結果を変数に入れることができます。

result=`echo "scale=2; $occurrences*100/$nw" | bc`

追加するには、たとえば、%次のようにします。次のようにしてください

echo $result'%'

Answer

次のようにファイルの総単語数を取得できます。

nw=`wc -w < /path/to/file`

ワード/パターンの発生回数

occurrences=`egrep -c <pattern> /path/to/file`

その後、パーセンテージを簡単に計算し、結果を変数に入れることができます。

result=`echo "scale=2; $occurrences*100/$nw" | bc`

追加するには、たとえば、%次のようにします。次のようにしてください

echo $result'%'

Question 2

示されたものと同じロジックを使用します。URL

tr ' ' '\n' < file.txt | awk '{if($0=="her"){nmw+=1}}END{print ((nmw*100)/NR)}'

Answer

示されたものと同じロジックを使用します。URL

tr ' ' '\n' < file.txt | awk '{if($0=="her"){nmw+=1}}END{print ((nmw*100)/NR)}'

Question 3

そしてawk：

awk -vw="word" 'BEGIN{RS="[^a-zA-Z]+"} $0==w{c++} END{printf "%.1f%%\n",c*100/NR}' file

Answer

そしてawk：

awk -vw="word" 'BEGIN{RS="[^a-zA-Z]+"} $0==w{c++} END{printf "%.1f%%\n",c*100/NR}' file

関連情報