大容量ファイルの重複行の削除

Question 1

現在実行中のプロセスがメモリ不足エラーのため失敗するようです。

複数のデータファイルの作成
それらを一つにつなぐ
結果の並べ替え、重複レコード（行）の削除

次のような手順を実行することができます。

複数のデータファイルの作成
各項目を個別に並べ替え、重複項目を削除します（sort -u）。
ソートされたデータファイルの結果セットをマージし、重複エントリを削除します（sort -m -u）。

Answer

現在実行中のプロセスがメモリ不足エラーのため失敗するようです。

複数のデータファイルの作成
それらを一つにつなぐ
結果の並べ替え、重複レコード（行）の削除

次のような手順を実行することができます。

複数のデータファイルの作成
各項目を個別に並べ替え、重複項目を削除します（sort -u）。
ソートされたデータファイルの結果セットをマージし、重複エントリを削除します（sort -m -u）。

Question 2

もちろんGNU / Linuxツールはありません：何Linuxにはまったく存在しないSCCS（ソースコード制御システム）の一部です。

したがって、おそらくUnixを使用しているでしょう。あるタイプアルゴリズムは次の問題を処理できます。UNIX Sortコマンドのアルゴリズムの詳細サイズを表す入力中サイズ、サイズのメモリ窒素、に分けて月の日メモリに適して連続的に処理されるブロックです。

要件を満たす必要があります。

Answer

もちろんGNU / Linuxツールはありません：何Linuxにはまったく存在しないSCCS（ソースコード制御システム）の一部です。

したがって、おそらくUnixを使用しているでしょう。あるタイプアルゴリズムは次の問題を処理できます。UNIX Sortコマンドのアルゴリズムの詳細サイズを表す入力中サイズ、サイズのメモリ窒素、に分けて月の日メモリに適して連続的に処理されるブロックです。

要件を満たす必要があります。

Question 3

% perl -ne 'if ( $seen{$_}++ ) {
    $count++ ;
    if ($count > 1000000) {
        $seen = () ;
        $count = 0 ;
    }
} else {
    print ;
}' <eof   
a
a
a
b
c
a
a
a
b
c
eof   
a
b
c
%

Answer

% perl -ne 'if ( $seen{$_}++ ) {
    $count++ ;
    if ($count > 1000000) {
        $seen = () ;
        $count = 0 ;
    }
} else {
    print ;
}' <eof   
a
a
a
b
c
a
a
a
b
c
eof   
a
b
c
%

大容量ファイルの重複行の削除

答え1

答え2

答え3

関連情報