異なるファイルのさまざまな基準に基づいてファイル行を選択するには？

Question 1

コメントで提案したとおり：

awk '
NR == FNR       {RGMIN[++IX] = $3 - 5000                        
                 RGMAX[IX]   = $3 + 5000  
                 CHROM[IX]   = $2              
                 next
                }
FNR == 1        {print                                         
                 next
                }
                {PR = 1                                         
                 for (i=2; i<=IX; i++) if ($2 == CHROM[i]) PR = PR * ($3 < RGMIN[i] || $3 > RGMAX[i])                                              
                }
PR          
' file2 file1 
Variant   Chromsome   Chromosome Position  
Variant1      2             14000     
Variant3      8             37000

Answer

コメントで提案したとおり：

awk '
NR == FNR       {RGMIN[++IX] = $3 - 5000                        
                 RGMAX[IX]   = $3 + 5000  
                 CHROM[IX]   = $2              
                 next
                }
FNR == 1        {print                                         
                 next
                }
                {PR = 1                                         
                 for (i=2; i<=IX; i++) if ($2 == CHROM[i]) PR = PR * ($3 < RGMIN[i] || $3 > RGMAX[i])                                              
                }
PR          
' file2 file1 
Variant   Chromsome   Chromosome Position  
Variant1      2             14000     
Variant3      8             37000

Question 2

file1 に対する file2 の重みに応じて file2 をマップし、file1 の場所がまだマップされていないかどうかをテストすることもできます。

 awk 'FNR==NR{for (i=$3-5000; i<=$3+5000; i++){v[$2"."i]=1}}
      FNR!=NR{if (! v[$2"."$3]) print $0}
      ' file2 file1

このデータセットの場合、@RudiCよりも遅いですが、file2に複数の重複範囲が多い場合は、より価値がある可能性があります。

Answer

file1 に対する file2 の重みに応じて file2 をマップし、file1 の場所がまだマップされていないかどうかをテストすることもできます。

 awk 'FNR==NR{for (i=$3-5000; i<=$3+5000; i++){v[$2"."i]=1}}
      FNR!=NR{if (! v[$2"."$3]) print $0}
      ' file2 file1

このデータセットの場合、@RudiCよりも遅いですが、file2に複数の重複範囲が多い場合は、より価値がある可能性があります。

異なるファイルのさまざまな基準に基づいてファイル行を選択するには？

答え1

答え2

関連情報