2つのファイル間の違いの評価[閉じる]

2つのファイル間の違いの評価[閉じる]

Unixで2つのテキストファイルの類似性または違いを評価する方法はありますか?

わかりましたdiff。しかし、それは私に違い自体を与えます。私が望むのは、答え、つまり2つのテキストがどれだけ似ているかを評価することだけです。同じ単語がたくさん含まれているか、テキストが非常に似ている場合が多いかなどです。実際に高品質で評価するのはかなり複雑なことですが、すでにこのようなことをしてみた人がいるのかと思います。

単一の数字だけを受け取る方が良いでしょう。 0 は数値が等しいことを意味し、数値が高いほど完全に異なることを意味します。

答え1

diffstat一般的な出力を読み、diffいくつかの統計を印刷する機能があります。ラインについてのみ

diff -u fileA fileB | diffstat

またはwdiffプロセス単語の違い

wdiff -123 --statistics fileA fileB

より興味深いオプションを見つけるには、マニュアルページを読むこともできます。

関連情報