文書内の各単語の発生数/ヒストグラムを取得します。

2024-6-5 • tag-icon

ファイル内の各単語の数を見つける方法は？

テキストパイプラインまたは文書内の各単語のヒストグラムが必要です。

文書を単語リストに分割して、各単語を新しい行に表示させることができました。テキスト文書から直接インポートできる場合は、そこにあるソリューションもお勧めします。

> cat doc.txt 
word
second
third
word
really
> cat doc.txt | ... # then count occurrences of each word \
                      and print in descending order separated by delimiter
word 2
really 1
second 1
third 1

ファイルが1GBのテキストであり、指数関数的なタイムロードを処理できないため、やや効率的でなければなりません。

答え1

1つの方法は次のとおりです。

$ sort file | uniq -c | sort -nrk1 | awk '{print $2,$1}'
word 2
third 1
second 1
really 1

答え1

関連情報