Unixで2つのテキストファイルの類似性または違いを評価する方法はありますか?
わかりましたdiff
。しかし、それは私に違い自体を与えます。私が望むのは、答え、つまり2つのテキストがどれだけ似ているかを評価することだけです。同じ単語がたくさん含まれているか、テキストが非常に似ている場合が多いかなどです。実際に高品質で評価するのはかなり複雑なことですが、すでにこのようなことをしてみた人がいるのかと思います。
単一の数字だけを受け取る方が良いでしょう。 0 は数値が等しいことを意味し、数値が高いほど完全に異なることを意味します。
答え1
diffstat
一般的な出力を読み、diff
いくつかの統計を印刷する機能があります。ラインについてのみ。
diff -u fileA fileB | diffstat
またはwdiff
プロセス単語の違い。
wdiff -123 --statistics fileA fileB
より興味深いオプションを見つけるには、マニュアルページを読むこともできます。