別のファイル範囲内で、あるファイルの値を見つけて親値を選択します。

Question 1

努力する

awk 'NR==FNR   {Line[FNR] = $0           # first file processing
                Cat[FNR]  = $1
                Min[FNR]  = $2
                Max[FNR]  = $3
                Low[FNR]  = 1E10         # initialize to high number so first value from file2 will be lower
                ML        = FNR
                next
               }
                                         # second file processing; if same Category and $3 between Min and Max, and $5 lower than before one, keep $5

               {for (i=1; i<=ML; i++)  if ($2 == Cat[i] &&
                                           $3 >= Min[i] &&
                                           $3 <= Max[i] &&
                                           $5 <  Low[i]) Low[i] = $5
               }
END                     {for (i=1; i<=ML; i++) print Line[i], Low[i]
                        }
' File-B File-A
1 12000 15000 G1 0.00001
1 14000 16000 G2 0.00001
2 56000 59000 G3 0.00004

多くの説明は必要ありません。最初のファイル（NR == FNR）から始めて、カテゴリと範囲/境界の値を維持し、最初の読み取りの実際の値が低くなるようにLow配列要素を設定します。 2番目のファイルを処理するときは、上記のデータセットを繰り返します。新しく読み取ったレコードがアイテムと同じカテゴリを持ち、$ 3がMinとMaxの間にあり、$ 5が以前に取得したレコードよりも低い場合は、$ 5を配列に保持しますLow。このENDセクションでは、記録された行と得られたLow値を標準出力として印刷します。

Answer

努力する

awk 'NR==FNR   {Line[FNR] = $0           # first file processing
                Cat[FNR]  = $1
                Min[FNR]  = $2
                Max[FNR]  = $3
                Low[FNR]  = 1E10         # initialize to high number so first value from file2 will be lower
                ML        = FNR
                next
               }
                                         # second file processing; if same Category and $3 between Min and Max, and $5 lower than before one, keep $5

               {for (i=1; i<=ML; i++)  if ($2 == Cat[i] &&
                                           $3 >= Min[i] &&
                                           $3 <= Max[i] &&
                                           $5 <  Low[i]) Low[i] = $5
               }
END                     {for (i=1; i<=ML; i++) print Line[i], Low[i]
                        }
' File-B File-A
1 12000 15000 G1 0.00001
1 14000 16000 G2 0.00001
2 56000 59000 G3 0.00004

多くの説明は必要ありません。最初のファイル（NR == FNR）から始めて、カテゴリと範囲/境界の値を維持し、最初の読み取りの実際の値が低くなるようにLow配列要素を設定します。 2番目のファイルを処理するときは、上記のデータセットを繰り返します。新しく読み取ったレコードがアイテムと同じカテゴリを持ち、$ 3がMinとMaxの間にあり、$ 5が以前に取得したレコードよりも低い場合は、$ 5を配列に保持しますLow。このENDセクションでは、記録された行と得られたLow値を標準出力として印刷します。

Question 2

anyawkとanyを使用してくださいsort。

$ cat tst.sh
#!/usr/bin/env bash

sort -k5,5n -- "$1" |
awk '
NR==FNR {
    if ( !($3 in map) ) {
        keys[++numKeys] = $3
        map[$3] = $5
    }
    next
}
{
    for ( k=1; k<=numKeys; k++ ) {
        key = keys[k]
        if ( ($2 <= key) && (key <= $3) ) {
            print $0, map[key]
            next
        }
    }
}
' - "$2"

$ ./tst.sh 'File-A' 'File-B'
1 12000 15000 G1 0.00001
1 14000 16000 G2 0.00001
2 56000 59000 G3 0.00004

重複した$3値がある場合、上記は関連する最低$5を正しく使用しますFile-A。

Answer

anyawkとanyを使用してくださいsort。

$ cat tst.sh
#!/usr/bin/env bash

sort -k5,5n -- "$1" |
awk '
NR==FNR {
    if ( !($3 in map) ) {
        keys[++numKeys] = $3
        map[$3] = $5
    }
    next
}
{
    for ( k=1; k<=numKeys; k++ ) {
        key = keys[k]
        if ( ($2 <= key) && (key <= $3) ) {
            print $0, map[key]
            next
        }
    }
}
' - "$2"

$ ./tst.sh 'File-A' 'File-B'
1 12000 15000 G1 0.00001
1 14000 16000 G2 0.00001
2 56000 59000 G3 0.00004

重複した$3値がある場合、上記は関連する最低$5を正しく使用しますFile-A。

別のファイル範囲内で、あるファイルの値を見つけて親値を選択します。

答え1

答え2

関連情報