commとdiffは入力/出力レベルで何を達成しようとしていますか？

Question 1

ここに記載されているように。 https://en.m.wikipedia.org/wiki/Diff

「diff演算は、最も長い共通部分修飾問題を解くことに基づいています。」

コメントで指摘したように、わずかに異なるバリエーション（diff、gdiff、vimdiff、git-diff、rdiff-backupなど）を持ついくつかの実装があります。 LCS Wikiページには、あなたが要求した数学的な定義があります。 2つのソートされたセットからすべてのLCSを減算すると、その差が残りになります。

Answer

ここに記載されているように。 https://en.m.wikipedia.org/wiki/Diff

「diff演算は、最も長い共通部分修飾問題を解くことに基づいています。」

コメントで指摘したように、わずかに異なるバリエーション（diff、gdiff、vimdiff、git-diff、rdiff-backupなど）を持ついくつかの実装があります。 LCS Wikiページには、あなたが要求した数学的な定義があります。 2つのソートされたセットからすべてのLCSを減算すると、その差が残りになります。

Question 2

実装の一般的な問題diffは、削除または挿入が検出された後に次の共通テキストブロックを見つけることです。

有用な結果を得るには、実装時に共通コードが1行後に再同期を検出するのか、それともより多くの共通コードが必要かを判断する必要があります。

その理由は、挿入後にすでに存在する行と同じ単一の行を挿入に含めることができるためです。単一の同じ行が再同期を検出するために使用される場合、diff出力は、予想されたものとは異なる複数の挿入にフラグを立てます。

しかし発見最も長い共通文字列アルゴリズムではなく問題であり、問題に対する解決策（アルゴリズム）がいくつかあります。

findこのコマンドは、Douglas McIllroyが1974年にUNIX用に作成した元のアルゴリズムを使用します。

もう1つの有名ですがまったく異なる実装（別のアルゴリズムを使用）は、1980年代後半に誰かがGNU用に書いていました。

再同期化アルゴリズムが完全に異なるため、両方の実装は場合によっては異なる結果を提供することが知られています。

diffUNIXが最小コードサイズの元の最適化を使用していた限り、GNUはUNIXよりも高速でしたが、diff数diff年前、私はdiffUNIX実装の最適化をコードサイズに関係なくできるだけ早く変更しました。一般的な目的でUNIXを使用している限り、ファイルサイズに応じてUNIXはdiffGNUより高速です。diff

Douglas McIllroyが使用したアルゴリズムは、彼の大学のホームページに文書化されています。http://www.cs.dartmouth.edu/~doug/diff.pdf

興味深いことに、diffを見つける反対のプロセスは、diff出力を使用して元のファイルにパッチを適用してファイルの新しいバージョンを取得することです。

SCCSこの問題に対する最初の解決策は、1972年にBell LabsのMarc J. Rochkindが発明したプログラムでした。彼の説明を見てください。http://sccs.sourceforge.net/sccs_invention.htmlsccsホームページから：http://sccs.sourceforge.net/diffの必要性のために、sccs1974年以前は古くなっていましたが、あまり賢くない実装がありましたdiff。

すべての可能なバージョンのストリームを単一のファイルに含めることができるため、ファイルのパッチを回避するSCCS非常に賢いファイル形式を使用してください。weaveファイルから単一のランダムバージョンを抽出すると、抽出したいweaveバージョンによって時間が変わらず、常に同じ速度で完了します。

Answer