大きなファイルから最初の数列が同じ2行目を削除する

Question 1

ファイルがソートされているようです。

sort -m -u -k 1,2 < file

-m~のためマージファイルを並べ替える試みは行われませんが、代わりに-u（例：ユニーク-k 1,2）最初の2つのフィールド（最初の19フィールド）で構成されたソートキーを指定することと組み合わせて、-k 1,19最初の2つのフィールドから重複する項目を削除します。

ファイルがソートされていない場合（少なくとも2つのフィールドで）、削除するだけです-m。しかし、結果は最終的にソートされます。ソートはコストがかかりますが、メモリ側では、大容量ファイルをソートするために一時ファイルが使用されるため（sort使用可能なディスク容量が必要な場合もあります）、大丈夫です。/tmp$TMPDIR

Answer

ファイルがソートされているようです。

sort -m -u -k 1,2 < file

-m~のためマージファイルを並べ替える試みは行われませんが、代わりに-u（例：ユニーク-k 1,2）最初の2つのフィールド（最初の19フィールド）で構成されたソートキーを指定することと組み合わせて、-k 1,19最初の2つのフィールドから重複する項目を削除します。

ファイルがソートされていない場合（少なくとも2つのフィールドで）、削除するだけです-m。しかし、結果は最終的にソートされます。ソートはコストがかかりますが、メモリ側では、大容量ファイルをソートするために一時ファイルが使用されるため（sort使用可能なディスク容量が必要な場合もあります）、大丈夫です。/tmp$TMPDIR

Question 2

同じ列を結合してインデックスを形成することは有効ですか？上記の例を見てみましょう。私たちはできる -

 awk '{ind=""; for(i=1; i<3; i++) {ind=ind" "$i }  if (!arr[ind]) arr[ind]=$3  } END{for (i in arr) print i, arr[i]}'

  A 1 abc
  A 2 ttt
  B 2 ppp

もちろん、必要なインデックスを結合するには、上記のループを変更する必要があります。

Answer

同じ列を結合してインデックスを形成することは有効ですか？上記の例を見てみましょう。私たちはできる -

 awk '{ind=""; for(i=1; i<3; i++) {ind=ind" "$i }  if (!arr[ind]) arr[ind]=$3  } END{for (i in arr) print i, arr[i]}'

  A 1 abc
  A 2 ttt
  B 2 ppp

もちろん、必要なインデックスを結合するには、上記のループを変更する必要があります。

Question 3

将来の場合はこれを行うことができます。そして、配列を使用して大容量ファイルの問題を解決できます。フィールド値が変更されるたびに配列が削除されます。

BEGIN{
    xd=""; 
}
{
    id=$1;

    if (id != xd)
    {
        for (x in arr)
        {
            print x,arr[x];
        }

        delete arr; #Each time the field one changes its value
        xd=id;
    }
    ind="";
    for (i=1; i<3; i++)
    {
        ind=ind $i;
    }
    if (!arr[ind])
    {
        arr[ind]=$3;
    }

}

END {
        for (x in arr)
        {
            print x,arr[x];
        }
}

出力：

$ awk -f script.awk file.txt
A1 abc
A2 ttt
B2 ppp

Answer

将来の場合はこれを行うことができます。そして、配列を使用して大容量ファイルの問題を解決できます。フィールド値が変更されるたびに配列が削除されます。

BEGIN{
    xd=""; 
}
{
    id=$1;

    if (id != xd)
    {
        for (x in arr)
        {
            print x,arr[x];
        }

        delete arr; #Each time the field one changes its value
        xd=id;
    }
    ind="";
    for (i=1; i<3; i++)
    {
        ind=ind $i;
    }
    if (!arr[ind])
    {
        arr[ind]=$3;
    }

}

END {
        for (x in arr)
        {
            print x,arr[x];
        }
}

出力：

$ awk -f script.awk file.txt
A1 abc
A2 ttt
B2 ppp

Question 4

この試み：

awk '_a[$1" "$2]++==0'  < filename

Answer

この試み：

awk '_a[$1" "$2]++==0'  < filename

大きなファイルから最初の数列が同じ2行目を削除する

答え1

答え2

答え3

答え4

関連情報