複数の列に一致する2つの大きなファイルをマージして順序を維持します（一致する値と一致しない値を印刷） - awkで拡張

Question 1

問題は、ファイルをメモリに保存するのではなく、データファイルの各行の検索テーブルを取得することです。あなたのコードには表示されませんが、後ろに3'000'000 x 323'000'000/2 =ほぼ1000兆の文字列比較を実行して、メモリバスから数千テラバイトを移動します。 200GBit / sの高速メモリを使用しても数時間かかります。

したがって、問題の鍵は、ルックアップテーブルを保存する方法です。実行時間を指数関数的に短縮するためにバイナリツリーを使用することをお勧めします。他の言語perlを使用してCこれを行うことができますが、この時点ではトピックから逸脱しました。

unixコマンドツールセットはこの問題を解決するのに役立ちません。

Answer

問題は、ファイルをメモリに保存するのではなく、データファイルの各行の検索テーブルを取得することです。あなたのコードには表示されませんが、後ろに3'000'000 x 323'000'000/2 =ほぼ1000兆の文字列比較を実行して、メモリバスから数千テラバイトを移動します。 200GBit / sの高速メモリを使用しても数時間かかります。

したがって、問題の鍵は、ルックアップテーブルを保存する方法です。実行時間を指数関数的に短縮するためにバイナリツリーを使用することをお勧めします。他の言語perlを使用してCこれを行うことができますが、この時点ではトピックから逸脱しました。

unixコマンドツールセットはこの問題を解決するのに役立ちません。

Question 2

私の仮説が正しい場合、両方のファイルは染色体、塩基対位置、rs番号（照会テーブルのみ）、最後に対立遺伝子でソートされます。少なくとも表示されている部分はこのパターンに従います。この場合、照会テーブル全体をメモリに保持する必要はありません。代わりに、無視できるメモリ要件で各ファイルを一度だけ検索するだけです。

データファイルの各タグを順番に繰り返して、一致が見つかるか、候補位置を超えて一致が決定しなくなるまで検索ファイルから検索します。一致するものが見つかると、対応するrs番号がルックアップテーブルから抽出され、それ以外の場合はデータテーブルの現在のchr：bpの組み合わせのみが使用されます。

以下のスクリプトを使用して目的の結果を得ました。スクリプトを保存し、次のように使用します。

gawk -f scriptname datafile lookuptable outputfile

いくつかの小さな追加：処理されたデータ量に関する最小限のフィードバックを得るには、「＃」と「。」を使用します。これは、それぞれデータテーブルとルックアップテーブルの10,000行ごとに出力されます。

#!/usr/bin/gawk -f 
BEGIN {
    OFS = "\t"
    step = 10000
    while (1==1) {
        if ((getline indata < ARGV[1]) < 1)
            break
        if (!(na++ % step))
            printf "\n#"
        split(indata,a)
        allequal = 0
        while (1==1) {
            if (!overrun) {
                if ((getline inlookup < ARGV[2]) < 1)
                    break
                if (!(nb++ % step))
                    printf "."
            } else {
                overrun=0
            }
            split(inlookup,b)
            if (b[1]>a[1] || b[2]>a[5]) {
                overrun=1
                break
            }
            if (a[1]==b[1] && a[5]==b[2] && ((a[6]==b[4] && a[7]==b[5]) || (a[7]==b[4] && a[6]==b[5]))) {
                allequal=1
                break
            }   
        }
        if (allequal) {
            print a[1],b[3],a[4],a[5],a[6],a[7],b[4],b[5] > ARGV[3]
        } else {
            print a[1],a[3],a[4],a[5],a[6],a[7],a[6],a[7] > ARGV[3]
        }   
    }
}

Answer

私の仮説が正しい場合、両方のファイルは染色体、塩基対位置、rs番号（照会テーブルのみ）、最後に対立遺伝子でソートされます。少なくとも表示されている部分はこのパターンに従います。この場合、照会テーブル全体をメモリに保持する必要はありません。代わりに、無視できるメモリ要件で各ファイルを一度だけ検索するだけです。

データファイルの各タグを順番に繰り返して、一致が見つかるか、候補位置を超えて一致が決定しなくなるまで検索ファイルから検索します。一致するものが見つかると、対応するrs番号がルックアップテーブルから抽出され、それ以外の場合はデータテーブルの現在のchr：bpの組み合わせのみが使用されます。

以下のスクリプトを使用して目的の結果を得ました。スクリプトを保存し、次のように使用します。

gawk -f scriptname datafile lookuptable outputfile

いくつかの小さな追加：処理されたデータ量に関する最小限のフィードバックを得るには、「＃」と「。」を使用します。これは、それぞれデータテーブルとルックアップテーブルの10,000行ごとに出力されます。

#!/usr/bin/gawk -f 
BEGIN {
    OFS = "\t"
    step = 10000
    while (1==1) {
        if ((getline indata < ARGV[1]) < 1)
            break
        if (!(na++ % step))
            printf "\n#"
        split(indata,a)
        allequal = 0
        while (1==1) {
            if (!overrun) {
                if ((getline inlookup < ARGV[2]) < 1)
                    break
                if (!(nb++ % step))
                    printf "."
            } else {
                overrun=0
            }
            split(inlookup,b)
            if (b[1]>a[1] || b[2]>a[5]) {
                overrun=1
                break
            }
            if (a[1]==b[1] && a[5]==b[2] && ((a[6]==b[4] && a[7]==b[5]) || (a[7]==b[4] && a[6]==b[5]))) {
                allequal=1
                break
            }   
        }
        if (allequal) {
            print a[1],b[3],a[4],a[5],a[6],a[7],b[4],b[5] > ARGV[3]
        } else {
            print a[1],a[3],a[4],a[5],a[6],a[7],a[6],a[7] > ARGV[3]
        }   
    }
}

複数の列に一致する2つの大きなファイルをマージして順序を維持します（一致する値と一致しない値を印刷） - awkで拡張

答え1

答え2

関連情報