私は複数のファイルを入力として使用し、各ファイルに対して最も頻繁に発生する上位の「n」単語を降順に表示するbashスクリプトを作成しています。
1つのファイルの単語頻度を計算する方法を見つけましたが、複数のファイルがあるため、並列に処理するときにどのように処理するのかわかりません。
sed -e 's/[^[:alpha:]]/ /g' testfile.txt | tr '\n' " " | tr -s " " | tr " " '\n'| tr 'A-Z' 'a-z' | sort | uniq -c | sort -nr | nl
これは1つのファイルに対してうまく機能しますが、次のように実行できるbashスクリプトを作成したいと思います。
$countWord test1.txt test2.txt test3.txt (countword here is my bash script that counts freq)
このファイルを入力として使用し、各ファイルについて次の内容を表示したいと思います。
===(1 51 33 test1.txt)==== # where 1: number of lines, 51: number of words, 33: number of characters
38 them
29 these
17 to
12 who
正しい方向で助けてくれてありがとう。 :)
答え1
ファイルのループの作成
for F in "$@"
do echo "=== $F ==="
sed -e 's/[^[:alpha:]]/ /g' "$F" | tr '\n' " " | tr -s " " | tr " " '\n'| tr 'A-Z' 'a-z' | sort | uniq -c | sort -nr | nl
done
楽しくお過ごしください!
答え2
次の入力を使用してください。
$ head file1 file2
==> file1 <==
I am new here. I am working on writing a bash script which takes multiple files
as input and display the top ‘n’ most frequently occurring words in
descending order for each of file.
==> file2 <==
I figured out how to count the frequency of words but I am unable to figure out
how I will deal when I have multiple files.
そしてシェルスクリプトのGNU awk:
$ cat tst.sh
#!/usr/bin/env bash
awk '
BEGIN { maxWords = 5 }
{
gsub(/[^[:alpha:]]/," ")
for (i=1; i<=NF; i++) {
words[$i]++
split($i,tmp)
for (j in tmp) {
chars[tmp[j]]++
}
}
}
ENDFILE {
print " ===(" FNR+0, length(words)+0, length(chars)+0, FILENAME ")==="
PROCINFO["sorted_in"] = "@val_num_desc"
numWords = 0
for (word in words) {
print words[word], word
if ( ++numWords == maxWords ) {
break
}
}
delete cnt
delete chars
}
' "${@:--}"
私達は次を得ました:
$ ./tst.sh file1 file2
===(3 32 32 file1)===
2 am
2 I
1 writing
1 working
1 words
===(2 45 20 file2)===
6 I
3 am
2 words
2 to
2 the