最も一般的に使用される単語のリストを作成する最も簡単な方法は何ですか？

Question 1

より速いコーディング時間のために今成功してみた方法は次のとおりです。

printf '%s\n' $(cat *.txt) | sort | uniq -c | sort -gr | less

Answer

より速いコーディング時間のために今成功してみた方法は次のとおりです。

printf '%s\n' $(cat *.txt) | sort | uniq -c | sort -gr | less

Question 2

Cで書くとランタイムが速くなりますが、書くのに時間がかかります。良いトレードオフは、awkを使用することです。

count.awk

FNR == NR { pat[$1] = 1; next }
{
  for(p in pat) 
    if(index($0, p)) 
      pat[p]++
} 
END { 
  for(p in pat) 
    print pat[p]-1, p
}

まず、単語リスト（1行に1単語）を読み、次に残りの入力から一致するものを計算します。次のように実行します。

cat *.txt | awk -f tally.awk wordlist - | sort -nr

上記のコードは部分文字列とも一致します。単語全体を一致させるには、そのindex行を次のように置き換えます。

if(match($0, "\\<" p "\\>"))

Answer

Cで書くとランタイムが速くなりますが、書くのに時間がかかります。良いトレードオフは、awkを使用することです。

count.awk

FNR == NR { pat[$1] = 1; next }
{
  for(p in pat) 
    if(index($0, p)) 
      pat[p]++
} 
END { 
  for(p in pat) 
    print pat[p]-1, p
}

まず、単語リスト（1行に1単語）を読み、次に残りの入力から一致するものを計算します。次のように実行します。

cat *.txt | awk -f tally.awk wordlist - | sort -nr

上記のコードは部分文字列とも一致します。単語全体を一致させるには、そのindex行を次のように置き換えます。

if(match($0, "\\<" p "\\>"))

Question 3

次のようにできます（GNU grepを使用）。

grep -hEo "[[:alnum:]_'-]+" ./*.txt | sort | uniq -c | sort -rn

上記の内容を[:alnum:]_'-単語コンポーネントに変更します。

Answer

次のようにできます（GNU grepを使用）。

grep -hEo "[[:alnum:]_'-]+" ./*.txt | sort | uniq -c | sort -rn

上記の内容を[:alnum:]_'-単語コンポーネントに変更します。

関連情報