テキストから最も一般的な単語を削除する

Question

「news.articles1」、「news.articles2」などのファイルがあり、一般的な単語が「stop.words」というファイルにあるとします。

cat news.articles* | tr -s '[:blank:]' '[\n*]' |
tr '[:upper:]' '[:lower:]' | fgrep -v -f stop.words

このパイプの出力には一般的な単語を含めないでください。パイプラインの追加手順では、すべての句読点を削除する必要があるかもしれません。たとえば、次のようになります。

tr -d '[:punct:]'

"stop.words"の良い英語版は一般的にあります/usr/share/groff/<version>/eign。

Answer 1

「news.articles1」、「news.articles2」などのファイルがあり、一般的な単語が「stop.words」というファイルにあるとします。

cat news.articles* | tr -s '[:blank:]' '[\n*]' |
tr '[:upper:]' '[:lower:]' | fgrep -v -f stop.words

このパイプの出力には一般的な単語を含めないでください。パイプラインの追加手順では、すべての句読点を削除する必要があるかもしれません。たとえば、次のようになります。

tr -d '[:punct:]'

"stop.words"の良い英語版は一般的にあります/usr/share/groff/<version>/eign。

関連情報