2つの大きなCSVファイル（それぞれ90 GB）を比較し、別のCSVに出力します。

Question 1

2つのファイルを1行ずつ結合するツールを見てみましょう。

生地内容を気にせずに2つのファイルを1行ずつ結合します。
コミュニケーションソートされたファイルをマージし、同じ行を記録します。これにより同じ行を消去できますが、異なる行を結合するには別のツールが必要です。
参加するソートされたファイルを結合して同じフィールドに一致させます。
タイプ2つのファイルをマージできます。
awkは、ユーザーが指定した規則に従って複数のファイルを結合できます。しかし、このような大きなファイルでは、汎用ツールではなく、最も適切なプロフェッショナルツールを使用すると、最高のパフォーマンスが得られます。

重複がないと仮定します。つまり、同じID、日付、および機能を持つ2つの行が1つのファイルに存在しません。重複項目がある場合、処理方法は処理方法によって異なります。また、ファイルがソートされていると仮定します。私もあなたの殻プロセスの交換、通常のshの代わりにbashまたはkshのようなもので、GNU coreutilsがあります（含まれていないLinuxおよびCygwinの場合）。

区切り文字が空白なのかタブなのかわかりません。空白があるとします。区切り文字が常に正確にタブの場合、タブを区切り記号（cut -d $'\t'、、、）として宣言し、代わりに\ tを使用するとパフォーマンスがわずかに低下します。join -t $'\t'sort -t $'\t'[ \t]\+

LC_ALL=Cマルチバイト文字に関連するパフォーマンスの低下を防ぐには、ロケールを通常のASCII（）に設定します。

行は1つのフィールドに基づいてのみ結合できるため、フィールドjoin1〜3を単一のフィールドにまとめる必要があります。これを行うには、区切り文字を1と2の間、2と3の間、3と4の間に変更します。スペースを置き換えるために1-3を変更します;。これにより、同じかどうかに関係なく、すべての行の組み合わせを取得できます。その後、sedを使用して同じ値を持つ行を削除できます。

join -a 1 -a 2 <(sed 's/[ \t]\+/;/; s/[ \t]\+/;/' file1.csv) <(sed 's/[ \t]\+/;/; s/[ \t]\+/;/' file2.csv) |
sed '/[ \t]\(.*\)[ \t]\+\1$/d' |
tr ';' '\t'

ペアリングできない行は4列の行で終わり、その行がファイル1にあるかファイル2にあるかは表示されません。ペアリングできないすべての回線を抑制するには、削除してください-a 1 -a 2。

ほとんど同じ行がある場合、それをリンクして消去するのに時間がかかります。別の方法は、をcomm -3使用して同じ行を消去することです。これにより、行は順番に並べ替えられますが、ファイル2の行には前のタブを持つ出力ストリームが生成されます。その後、awkを使用して、同じフィールド1〜3を持つ2つのファイルの連続した行をマージできます。これにはawkが含まれているため、他の行が多いと遅くなる可能性があります。

comm -3 file1.csv file2.csv |
awk '
    $1 "\t" $2 "\t" $3 == k { if ($4 != v) print k "\t" v "\t" $4; next; }
    { print k "\t" v }
    { k=$1 "\t" $2 "\t" $3; v=$4; }
'

Answer

2つのファイルを1行ずつ結合するツールを見てみましょう。

生地内容を気にせずに2つのファイルを1行ずつ結合します。
コミュニケーションソートされたファイルをマージし、同じ行を記録します。これにより同じ行を消去できますが、異なる行を結合するには別のツールが必要です。
参加するソートされたファイルを結合して同じフィールドに一致させます。
タイプ2つのファイルをマージできます。
awkは、ユーザーが指定した規則に従って複数のファイルを結合できます。しかし、このような大きなファイルでは、汎用ツールではなく、最も適切なプロフェッショナルツールを使用すると、最高のパフォーマンスが得られます。

重複がないと仮定します。つまり、同じID、日付、および機能を持つ2つの行が1つのファイルに存在しません。重複項目がある場合、処理方法は処理方法によって異なります。また、ファイルがソートされていると仮定します。私もあなたの殻プロセスの交換、通常のshの代わりにbashまたはkshのようなもので、GNU coreutilsがあります（含まれていないLinuxおよびCygwinの場合）。

区切り文字が空白なのかタブなのかわかりません。空白があるとします。区切り文字が常に正確にタブの場合、タブを区切り記号（cut -d $'\t'、、、）として宣言し、代わりに\ tを使用するとパフォーマンスがわずかに低下します。join -t $'\t'sort -t $'\t'[ \t]\+

LC_ALL=Cマルチバイト文字に関連するパフォーマンスの低下を防ぐには、ロケールを通常のASCII（）に設定します。

行は1つのフィールドに基づいてのみ結合できるため、フィールドjoin1〜3を単一のフィールドにまとめる必要があります。これを行うには、区切り文字を1と2の間、2と3の間、3と4の間に変更します。スペースを置き換えるために1-3を変更します;。これにより、同じかどうかに関係なく、すべての行の組み合わせを取得できます。その後、sedを使用して同じ値を持つ行を削除できます。

join -a 1 -a 2 <(sed 's/[ \t]\+/;/; s/[ \t]\+/;/' file1.csv) <(sed 's/[ \t]\+/;/; s/[ \t]\+/;/' file2.csv) |
sed '/[ \t]\(.*\)[ \t]\+\1$/d' |
tr ';' '\t'

ペアリングできない行は4列の行で終わり、その行がファイル1にあるかファイル2にあるかは表示されません。ペアリングできないすべての回線を抑制するには、削除してください-a 1 -a 2。

ほとんど同じ行がある場合、それをリンクして消去するのに時間がかかります。別の方法は、をcomm -3使用して同じ行を消去することです。これにより、行は順番に並べ替えられますが、ファイル2の行には前のタブを持つ出力ストリームが生成されます。その後、awkを使用して、同じフィールド1〜3を持つ2つのファイルの連続した行をマージできます。これにはawkが含まれているため、他の行が多いと遅くなる可能性があります。

comm -3 file1.csv file2.csv |
awk '
    $1 "\t" $2 "\t" $3 == k { if ($4 != v) print k "\t" v "\t" $4; next; }
    { print k "\t" v }
    { k=$1 "\t" $2 "\t" $3; v=$4; }
'

Question 2

100万行を含む2つのファイルをすばやく比較する方法を見つけました。私の必要性は、2つのファイルが同じでなければならないということです。 diffコマンドは遅いですが、より高速にするには、ファイルを比較する前にソートするだけです。

だから基本的に：

sort file01.txt > file01_sorted.txt
sort file02.txt > file02_sorted.txt

次にdiffコマンドを実行します。

diff file01_sorted.txt file02_sorted.txt

または、ソートされたファイルに対してmd5sumを実行できます。

md5sum file01_sorted.txt
md5sum file02_sorted.txt

Answer

100万行を含む2つのファイルをすばやく比較する方法を見つけました。私の必要性は、2つのファイルが同じでなければならないということです。 diffコマンドは遅いですが、より高速にするには、ファイルを比較する前にソートするだけです。

だから基本的に：

sort file01.txt > file01_sorted.txt
sort file02.txt > file02_sorted.txt

次にdiffコマンドを実行します。

diff file01_sorted.txt file02_sorted.txt

または、ソートされたファイルに対してmd5sumを実行できます。

md5sum file01_sorted.txt
md5sum file02_sorted.txt

Question 3

編集：この回答はあなたの周りの誰にでも適しているかもしれません。システムに200GBのRAMを使用できます。。こんな。

diff --side-by-side --suppress-common-lines file1.csv file2.csv

既定値はで、|130 文字の広行区切り記号 (必要に応じて改行を含む) です。入力形式と同じではないようです。

次のことを試してみてください。

diff --old-line-format="%l$(printf '\t')" --new-line-format="%L" --unchanged-line-format="" file1.csv file2.csv

Answer

編集：この回答はあなたの周りの誰にでも適しているかもしれません。システムに200GBのRAMを使用できます。。こんな。

diff --side-by-side --suppress-common-lines file1.csv file2.csv

既定値はで、|130 文字の広行区切り記号 (必要に応じて改行を含む) です。入力形式と同じではないようです。

次のことを試してみてください。

diff --old-line-format="%l$(printf '\t')" --new-line-format="%L" --unchanged-line-format="" file1.csv file2.csv

2つの大きなCSVファイル（それぞれ90 GB）を比較し、別のCSVに出力します。

答え1

答え2

答え3

関連情報