検索パターンファイルを使用してCSVの最後の列で正しい単語を検索するにはどうすればよいですか？

Question 1

awk 'NR==FNR{a[$1];next}{n=split($NF,b,";");for(i=1;i<=n;i++){if(b[i] in a){print;break}}}' file2 file1

リリースされたバージョン：

awk '
  NR==FNR{a[$1];next}
  {
    n=split($NF,b,";")
    for(i=1;i<=n;i++){
      if(b[i] in a){print;break}
    }
  }   
' file2 file1

split($NF,b,";")最後のフィールドをセミコロンに分割し、結果をb配列に入れます。b割り当てられた要素の数を返しますn。あなたの例の行からn=2と。b[1]=166486b[2]=1897048

if(b[i] in a){print;break}正確に一致するものがある場合は、その行を印刷してループを中断して、同じ行が2回印刷されないようにします。

Answer

awk 'NR==FNR{a[$1];next}{n=split($NF,b,";");for(i=1;i<=n;i++){if(b[i] in a){print;break}}}' file2 file1

リリースされたバージョン：

awk '
  NR==FNR{a[$1];next}
  {
    n=split($NF,b,";")
    for(i=1;i<=n;i++){
      if(b[i] in a){print;break}
    }
  }   
' file2 file1

split($NF,b,";")最後のフィールドをセミコロンに分割し、結果をb配列に入れます。b割り当てられた要素の数を返しますn。あなたの例の行からn=2と。b[1]=166486b[2]=1897048

if(b[i] in a){print;break}正確に一致するものがある場合は、その行を印刷してループを中断して、同じ行が2回印刷されないようにします。

Question 2

Pythonデータ構造は、setセミコロンで区切られた数字の1つがfile2数字で構成される別のセットで見つかったかどうかを比較して見つける方法を提供します。 Yield が空でなく、交点が設定されている場合は、現在の行を印刷し続けます。

python3 - file1 file2 <<\eof
import sys

data, pat = sys.argv[1:]
rs, fs = '\n', '\t'

with open(pat) as fp, open(data) as fd:
  pats = set(fp.read().splitlines())
  for l in fd:
    s = l.rstrip(rs).split(fs)[-1].split(';')
    if set(s) & pats: print(l, end='')
eof

Answer

Pythonデータ構造は、setセミコロンで区切られた数字の1つがfile2数字で構成される別のセットで見つかったかどうかを比較して見つける方法を提供します。 Yield が空でなく、交点が設定されている場合は、現在の行を印刷し続けます。

python3 - file1 file2 <<\eof
import sys

data, pat = sys.argv[1:]
rs, fs = '\n', '\t'

with open(pat) as fp, open(data) as fd:
  pats = set(fp.read().splitlines())
  for l in fd:
    s = l.rstrip(rs).split(fs)[-1].split(';')
    if set(s) & pats: print(l, end='')
eof

Question 3

注文する

 awk 'NR == FNR {a[$1];next}FS=";"($NF in  a){print $0}' f2 f1

出力

NODE_1_length_45927_cov_22.029055_g0_i0 WP_055195622.1  93.1    729     50      0       291     2477    1       729     0.0e+00 1275.4  166486;1897048

Answer

注文する

 awk 'NR == FNR {a[$1];next}FS=";"($NF in  a){print $0}' f2 f1

出力

NODE_1_length_45927_cov_22.029055_g0_i0 WP_055195622.1  93.1    729     50      0       291     2477    1       729     0.0e+00 1275.4  166486;1897048

検索パターンファイルを使用してCSVの最後の列で正しい単語を検索するにはどうすればよいですか？

答え1

答え2

答え3

関連情報