各行の重複を無視し、.csvファイルで最も一般的な単語を見つける方法は？

Question 1

GNUgrepまたは互換製品を使用してください。

$ grep -nEo '\w+' file.csv|sort -u|cut -d: -f2-|sort|uniq -c|sort -k1rn|head
      2 blue
      2 green
      2 red
      1 brown
      1 yellow

Answer

GNUgrepまたは互換製品を使用してください。

$ grep -nEo '\w+' file.csv|sort -u|cut -d: -f2-|sort|uniq -c|sort -k1rn|head
      2 blue
      2 green
      2 red
      1 brown
      1 yellow

Question 2

パールを選ぶかもしれない

uniqモジュールの内容を使用して、List::Util各行の重複エントリを削除します。
ハッシュを使用して結果の発生回数を計算します。

例えば

perl -MList::Util=uniq -F, -lnE '
  map { $h{$_}++ } uniq @F 
  }{ 
  foreach $k (sort { $h{$b} <=> $h{$a} } keys %h) {say "$h{$k}: $k"}
' file.csv
2: red
2: green
2: blue
1: yellow
1: brown

sortcoreutilsを使用するしかない場合は、uniqシェルループを追加して同様のアルゴリズムを実装できます。

while IFS=, read -a words; do 
  printf '%s\n' "${words[@]}" | sort -u
done < file.csv | sort | uniq -c | sort -rn
  2 red
  2 green
  2 blue
  1 yellow
  1 brown

しかし、参考にしてくださいシェルループを使用してテキストを処理するのはなぜ悪い習慣と見なされますか？

Answer

パールを選ぶかもしれない

uniqモジュールの内容を使用して、List::Util各行の重複エントリを削除します。
ハッシュを使用して結果の発生回数を計算します。

例えば

perl -MList::Util=uniq -F, -lnE '
  map { $h{$_}++ } uniq @F 
  }{ 
  foreach $k (sort { $h{$b} <=> $h{$a} } keys %h) {say "$h{$k}: $k"}
' file.csv
2: red
2: green
2: blue
1: yellow
1: brown

sortcoreutilsを使用するしかない場合は、uniqシェルループを追加して同様のアルゴリズムを実装できます。

while IFS=, read -a words; do 
  printf '%s\n' "${words[@]}" | sort -u
done < file.csv | sort | uniq -c | sort -rn
  2 red
  2 green
  2 blue
  1 yellow
  1 brown

しかし、参考にしてくださいシェルループを使用してテキストを処理するのはなぜ悪い習慣と見なされますか？

Question 3

awk連想配列と簡単な論理チェックを使用できます。

awk -F, '
  {split("", c); for (i=1; i<=NF; i++) 
      if (!c[$i]){c[$i]++;wds[$i]++}}
  END{for (wd in wds) print wds[wd], wd}' file

出力

1 brown
2 red
1 yellow
2 blue
2 green

牙

フィールド区切り記号を次のように設定します。,

awk -F, '

1行に複数の単語が表示されることを確認するために計算するか、またはcを使用して各行の先頭の単語数が空であることを確認し、フィールドをdelete c;繰り返しsplit("", c)ます。

      {split("", c); for (i=1; i<=NF; i++)

または

      {delete c; for (i=1; i<=NF; i++)

$iこの行の単語がまだ表示されていない場合は、!c[$i]その単語のカウンタをc[$i]++1に増やします（単語が同じ行に再び表示されると、条件付きテストは失敗します）。その後、wds[$i]++ テストが失敗しない場合は、総数を増やします。言葉の

      if (!c[$i]){c[$i]++;wds[$i]++}}

ファイルが完成したら、配列を繰り返してwds数wds[wd]と単語を印刷します。wd

      END{for (wd in wds) print wds[wd], wd}' file

楽しく

awk連想配列ビットなしのハッキング

awk -F, '{for (i=1; i<=NF; i++) print NR, $i}' file | 
    sort | uniq | awk '{print $2}'| sort | uniq -c | sort -nr

awk行番号が前になるようにフィールドを削除し、行の重複をsort | uniq失い、awk番号をもう一度失い、元のコードに戻します。

Answer