2番目の列の2番目のコロンの後のすべての項目を削除し、残りのすべてを維持するにはどうすればよいですか？

Question 1

次のプログラムを使用できますawk。

awk '{sub(/:[^:]*:[^:]*$/,"",$2)}1' file.bim > updated_file.bim

または

awk '{sub(/(:[^:]*){2}$/,"",$2)}1' file.bim > updated_file.bim

この関数を使用して2番目の列（）をsub()編集し、最後の2つの列とその後のテキストを「なし」に置き換えて、そのセクションを効果的に削除します。$2:

出力ファイルをタブで区切る必要がある場合awk -v OFS="\t" ' ... '。

または、ファイルが次のように区切られた場合複数の「空間」で構成されるグループ区切り文字の形式が完全に変更されていないことを確認するには、次のようにします。

awk '{sub(/:[^:]*:[^: ]* /," ")}1' file.bim > updated_file.bim

:「、テキスト、、テキスト、:スペース」パターンを見つけて、そのパターンを単一の「スペース」に置き換えます。入力では、このパターンは列2の終わりにのみ発生するため、置換はその列にのみ影響します。

ついに、後でいつでも:2番目の列の - で区切られたフィールドの数が変更される可能性がありますが、まだ最初の2つだけを維持したい場合オリジナル2番目の列を最初の列の周りのテキストにのみ置き換える移植性が劣る変形ですが:（最後の2列の後に「なし」があるテキストの代わりに）：

awk '{$2=gensub(/([^:]+:[^:]+).*/,"\\1","1",$2)}1' file.bim > updated_file.bim

Answer

次のプログラムを使用できますawk。

awk '{sub(/:[^:]*:[^:]*$/,"",$2)}1' file.bim > updated_file.bim

または

awk '{sub(/(:[^:]*){2}$/,"",$2)}1' file.bim > updated_file.bim

この関数を使用して2番目の列（）をsub()編集し、最後の2つの列とその後のテキストを「なし」に置き換えて、そのセクションを効果的に削除します。$2:

出力ファイルをタブで区切る必要がある場合awk -v OFS="\t" ' ... '。

または、ファイルが次のように区切られた場合複数の「空間」で構成されるグループ区切り文字の形式が完全に変更されていないことを確認するには、次のようにします。

awk '{sub(/:[^:]*:[^: ]* /," ")}1' file.bim > updated_file.bim

:「、テキスト、、テキスト、:スペース」パターンを見つけて、そのパターンを単一の「スペース」に置き換えます。入力では、このパターンは列2の終わりにのみ発生するため、置換はその列にのみ影響します。

ついに、後でいつでも:2番目の列の - で区切られたフィールドの数が変更される可能性がありますが、まだ最初の2つだけを維持したい場合オリジナル2番目の列を最初の列の周りのテキストにのみ置き換える移植性が劣る変形ですが:（最後の2列の後に「なし」があるテキストの代わりに）：

awk '{$2=gensub(/([^:]+:[^:]+).*/,"\\1","1",$2)}1' file.bim > updated_file.bim

Question 2

2番目の列の2番目のコロンの後のすべての内容を削除し、残りはすべて保持します。

awk '{ c=split($2, s, ":"); $2=s[1] (c>1?":":"") s[2]; }1' infile

ご存知のように、これが大きな問題ではない場合は、2番目の列を再評価すると重複するスペースが削除されます。それ以外の場合は、次のものを代わりsedに使用します。

sed -E 's/^([^ ]* *)([^: ]*:[^: ]*):[^ ]* (.*)/\1\2 \3/' infile

試験日;

::1   1:81995:9:C:T    0   8::199:59  T   C
1:a:  :1821249GA:    0   821:2:4  A   G
111   1:828539::    0   :::828539  T   A

結果：

::1   1:81995    0   8::199:59  T   C
1:a:  :1821249GA    0   821:2:4  A   G
111   1:828539    0   :::828539  T   A

Answer

2番目の列の2番目のコロンの後のすべての内容を削除し、残りはすべて保持します。

awk '{ c=split($2, s, ":"); $2=s[1] (c>1?":":"") s[2]; }1' infile

ご存知のように、これが大きな問題ではない場合は、2番目の列を再評価すると重複するスペースが削除されます。それ以外の場合は、次のものを代わりsedに使用します。

sed -E 's/^([^ ]* *)([^: ]*:[^: ]*):[^ ]* (.*)/\1\2 \3/' infile

試験日;

::1   1:81995:9:C:T    0   8::199:59  T   C
1:a:  :1821249GA:    0   821:2:4  A   G
111   1:828539::    0   :::828539  T   A

結果：

::1   1:81995    0   8::199:59  T   C
1:a:  :1821249GA    0   821:2:4  A   G
111   1:828539    0   :::828539  T   A

Question 3

GNU sedを使用すると、次のことができます\S。

$ sed 's/\(:[^:]*\)\S*/\1/' file
1   1:819959    0   819959  T   C
1   1:821249    0   821249  A   G
1   1:821477    0   821477  G   A
1   1:821843    0   821843  T   C
1   1:823963    0   823963  C   A
1   1:824357    0   824357  T   C
1   1:824398    0   824398  C   A
1   1:827972    0   827972  A   G
1   1:828539    0   828539  T   A

または、POSIX sedを使用してください。

$ sed 's/\(:[^:]*\)[^[:space:]]*/\1/' file
1   1:819959    0   819959  T   C
1   1:821249    0   821249  A   G
1   1:821477    0   821477  G   A
1   1:821843    0   821843  T   C
1   1:823963    0   823963  C   A
1   1:824357    0   824357  T   C
1   1:824398    0   824398  C   A
1   1:827972    0   827972  A   G
1   1:828539    0   828539  T   A

Answer

GNU sedを使用すると、次のことができます\S。

$ sed 's/\(:[^:]*\)\S*/\1/' file
1   1:819959    0   819959  T   C
1   1:821249    0   821249  A   G
1   1:821477    0   821477  G   A
1   1:821843    0   821843  T   C
1   1:823963    0   823963  C   A
1   1:824357    0   824357  T   C
1   1:824398    0   824398  C   A
1   1:827972    0   827972  A   G
1   1:828539    0   828539  T   A

または、POSIX sedを使用してください。

$ sed 's/\(:[^:]*\)[^[:space:]]*/\1/' file
1   1:819959    0   819959  T   C
1   1:821249    0   821249  A   G
1   1:821477    0   821477  G   A
1   1:821843    0   821843  T   C
1   1:823963    0   823963  C   A
1   1:824357    0   824357  T   C
1   1:824398    0   824398  C   A
1   1:827972    0   827972  A   G
1   1:828539    0   828539  T   A

Question 4

まず、2ドルからお好みのものをawk選択してください。代わりにsubstr($2, 1, 8)値を印刷してください。したがって、あなたのコードは次のようになります。s$2

awk 's = substr($2, 1, 8) {print $1, s, $3, $4, $5, $6}' file
1 1:819959 0 819959 T C
1 1:821249 0 821249 A G
1 1:821477 0 821477 G A
1 1:821843 0 821843 T C
1 1:823963 0 823963 C A
1 1:824357 0 824357 T C
1 1:824398 0 824398 C A
1 1:827972 0 827972 A G
1 1:828539 0 828539 T A

スペースを保存するために更新されました。

awk -F '[[:blank:]]{2,}' '$2 = substr($2, 1, 8) {print $1, $2, $3, $4, $5, $6}' file | column -t
1  1:819959  0  819959  T  C
1  1:821249  0  821249  A  G
1  1:821477  0  821477  G  A
1  1:821843  0  821843  T  C
1  1:823963  0  823963  C  A
1  1:824357  0  824357  T  C
1  1:824398  0  824398  C  A
1  1:827972  0  827972  A  G
1  1:828539  0  828539  T  A

Answer

まず、2ドルからお好みのものをawk選択してください。代わりにsubstr($2, 1, 8)値を印刷してください。したがって、あなたのコードは次のようになります。s$2

awk 's = substr($2, 1, 8) {print $1, s, $3, $4, $5, $6}' file
1 1:819959 0 819959 T C
1 1:821249 0 821249 A G
1 1:821477 0 821477 G A
1 1:821843 0 821843 T C
1 1:823963 0 823963 C A
1 1:824357 0 824357 T C
1 1:824398 0 824398 C A
1 1:827972 0 827972 A G
1 1:828539 0 828539 T A

スペースを保存するために更新されました。

awk -F '[[:blank:]]{2,}' '$2 = substr($2, 1, 8) {print $1, $2, $3, $4, $5, $6}' file | column -t
1  1:819959  0  819959  T  C
1  1:821249  0  821249  A  G
1  1:821477  0  821477  G  A
1  1:821843  0  821843  T  C
1  1:823963  0  823963  C  A
1  1:824357  0  824357  T  C
1  1:824398  0  824398  C  A
1  1:827972  0  827972  A  G
1  1:828539  0  828539  T  A

2番目の列の2番目のコロンの後のすべての項目を削除し、残りのすべてを維持するにはどうすればよいですか？

答え1

答え2

答え3

答え4

関連情報