
私が作業しているプロジェクトの場合は、特定のパターンと具体的に一致する必要がある識別子のリストが必要です。
デフォルトでは、ファイルには、関連する行を選択するために他のファイルで使用したいパターンのリストがあります。
幸いにもgrep -f patternfile.txt otherfile.txt > releventlinesfile.txt
それは動作しません。どちらもありませんgrep -w
。
otherfile.txtのファイル構造は次のとおりです。
test_id gene_id gene locus sample_1 sample_2 status value_1 value_2 log2(fold_change) test_stat p_value q_value significant
TSS10019 XLOC_007800 ABC73140 1:27498963-27503819 BA BB NOTEST 0.666344 0.628569 -0.0841946 0 1 1 no
TSS1002 XLOC_000726 ABC14350 1:4907952-4913152 BA BB NOTEST 0 0 0 0 1 1 no
TSS10020 XLOC_007801 ABC73150 1:27504093-27506154 BA BB OK 11.8553 13.3817 0.174729 1.26968 0.02755 0.107242 no
TSS10021 XLOC_007802 ABC73165 1:27508724-27508949 BA BB NOTEST 0 0 0 0 1 1 no
TSS10022 XLOC_007803 ABC73170 1:27511324-27514797 BA BB OK 0.893787 0.557083 -0.682037 -0.590335 0.33135 0.575735 -no
Patternfile.txt のファイル構造は次のとおりです。
TSS10020
TSS10056
TSS10378
TSS10708
TSS11795
私が望む出力:
TSS10020 XLOC_007801 ABC73150 1:27504093-27506154 BA BB OK 11.8553 13.3817 0.174729 1.26968 0.02755 0.107242 no
答え1
結果で部分的に一致するのではなく、単語全体を一致させるには、オプション-w
と-f
一緒に使用する必要があります。grep
grep -wf patternfile.txt otherfile.txt > releventlinesfile.txt
答え2
ファイルの数が少し混乱しています。
- lijst_expressie.txt
- sig_splicing.txt
- ジャンクション.diff
- tss_group_exp.diff
- tss_lijst.txt
原因:
splicing.diffのlss_lijst.txtでTSSを見つけたいです。
短いリストを使用してください:tss_lijst.txt
TSS1
TSS10
そして、splicing.diff
あなたが提供したように、以下を使用してfile1にリストされているTSSを抽出できます。
awk 'NF==1{ tss[$1]=1 ; next ; } $1 in tss { print ;}' tss_lijst.txt splicing.diff
TSS1 XLOC_000001 AT1G01010 1:3630-5899 BAY_ST BAY_LP OK 0 0 0.219269 0 0.1726 0.474413 no
TSS10 XLOC_000007 AT1G01180 1:75404-76921 BAY_ST BAY_LP OK 0 0 0.0277474 0 0.77985 0.900632 no
肯定を得る
awk '$14 == "yes" ' splicing.diff