レコード列の特定の文字列に一致を制限する方法は？

Question 1

命令を出すには3つの程度がありますが、

awk 'NR==1; $3 ~ /^deleterious(*)$/' file1.txt > file2.txt

期待どおりに機能しません：

データの入力フィールドの区切り記号はです|。使用しているデフォルトの区切り文字はスペースまたはタブの集まりです。これは、これが各行の最初の文字に$3なることを意味します。|
NR==1それにもかかわらず、コードビットのために最初の行が印刷されます。
使用した正規表現に式エラーがあります。拡張正規表現では特別なので、(エスケープ)する必要があります。ただし、「文字数制限なし」ともdeleterious$*$一致できません。\(*(

3番目のフィールドを一致させるためにdeleterious(<anything>)式を使用できます^deleterious$.*$$。括弧は正規表現で特別なので、エスケープする必要があります。または^deleterious[(].*[)]$使用することができます。

これはあなたが使うことを意味します

awk -F '[[:blank:]]*[|][[:blank:]]*' '$3 ~ /^deleterious\(.*\)$/' file1.txt >file2.txt

与えられたデータに基づいてこのように生成されます。

> HGNC:6583  |  1   | deleterious(0.04)

存在するfile2.txt。

と一つ |フィールド区切り記号として使用できます

awk -F '|' '$3 ~ /^[[:blank:]]*deleterious\(.*\)$/' file1.txt >file2.txt

これにより、3 番目のフィールドの先頭にスペースまたはタブが許可されます。

Answer