そのIDで生物の数を抽出しますか？

Question 1

$ datamash -t' ' -g2 count 1 collapse 1 < <(sed 's/^\(ID[0-9]*\).*\[\([^]]*\)\]$/\1 \2/' file) \
   | awk '{ print $2,$1,$3 }' \
   | sed 's/,\(ID[^,]*\)/\n# # \1/g' \
   | column -t \
   | tr '#' ' '
5  Papaver_somniferum     ID1
                          ID2
                          ID3
                          ID4
                          ID5
4  Helianthus_annuus      ID6
                          ID7
                          ID8
                          ID9
1  Arabidopsis_thaliana   ID10
2  Citrus_sinensis        ID11
                          ID12
3  Nelumbo_nucifera       ID13
                          ID14
                          ID15
1  Helianthus_annuus      ID16
1  Zea_mays               ID17
1  Coffea_eugenioides     ID18
1  Musa_acuminata         ID19
1  Asparagus_officinalis  ID20

ステップ1：以下を使用してIDと生物の名前を抽出しますsed。

$ sed 's/^\(ID[0-9]*\).*\[\([^]]*\)\]$/\1 \2/' file
ID1 Papaver_somniferum
ID2 Papaver_somniferum
ID3 Papaver_somniferum
ID4 Papaver_somniferum
ID5 Papaver_somniferum
ID6 Helianthus_annuus
ID7 Helianthus_annuus
...

ステップ2：sed出力をGNUに供給しdatamash、2番目のフィールドでグループ化し、1番目のフィールドで計算して縮小します。

$ datamash -t' ' -g2 count 1 collapse 1 < <(sed 's/^\(ID[0-9]*\).*\[\([^]]*\)\]$/\1 \2/' file)
Papaver_somniferum 5 ID1,ID2,ID3,ID4,ID5
Helianthus_annuus 4 ID6,ID7,ID8,ID9
Arabidopsis_thaliana 1 ID10
Citrus_sinensis 2 ID11,ID12
Nelumbo_nucifera 3 ID13,ID14,ID15
Helianthus_annuus 1 ID16
Zea_mays 1 ID17
Coffea_eugenioides 1 ID18
Musa_acuminata 1 ID19
Asparagus_officinalis 1 ID20

ステップ3：出力を表形式に変換するには、いくつかの形式を追加してください。

awk '{ print $2,$1,$3 }'列2（個数）と列1（生物名）を変更します。
sed 's/,$ID[^,]*$/\n# # \1/g'各コンマとIDを改行、スペースで区切られた2つのダミー文字、および#ID（GNUを使用sed）で置き換えます。
column -t表形式の指定
tr '#' ' '#ダミー文字をスペースに置き換える

Answer

$ datamash -t' ' -g2 count 1 collapse 1 < <(sed 's/^\(ID[0-9]*\).*\[\([^]]*\)\]$/\1 \2/' file) \
   | awk '{ print $2,$1,$3 }' \
   | sed 's/,\(ID[^,]*\)/\n# # \1/g' \
   | column -t \
   | tr '#' ' '
5  Papaver_somniferum     ID1
                          ID2
                          ID3
                          ID4
                          ID5
4  Helianthus_annuus      ID6
                          ID7
                          ID8
                          ID9
1  Arabidopsis_thaliana   ID10
2  Citrus_sinensis        ID11
                          ID12
3  Nelumbo_nucifera       ID13
                          ID14
                          ID15
1  Helianthus_annuus      ID16
1  Zea_mays               ID17
1  Coffea_eugenioides     ID18
1  Musa_acuminata         ID19
1  Asparagus_officinalis  ID20

ステップ1：以下を使用してIDと生物の名前を抽出しますsed。

$ sed 's/^\(ID[0-9]*\).*\[\([^]]*\)\]$/\1 \2/' file
ID1 Papaver_somniferum
ID2 Papaver_somniferum
ID3 Papaver_somniferum
ID4 Papaver_somniferum
ID5 Papaver_somniferum
ID6 Helianthus_annuus
ID7 Helianthus_annuus
...

ステップ2：sed出力をGNUに供給しdatamash、2番目のフィールドでグループ化し、1番目のフィールドで計算して縮小します。

$ datamash -t' ' -g2 count 1 collapse 1 < <(sed 's/^\(ID[0-9]*\).*\[\([^]]*\)\]$/\1 \2/' file)
Papaver_somniferum 5 ID1,ID2,ID3,ID4,ID5
Helianthus_annuus 4 ID6,ID7,ID8,ID9
Arabidopsis_thaliana 1 ID10
Citrus_sinensis 2 ID11,ID12
Nelumbo_nucifera 3 ID13,ID14,ID15
Helianthus_annuus 1 ID16
Zea_mays 1 ID17
Coffea_eugenioides 1 ID18
Musa_acuminata 1 ID19
Asparagus_officinalis 1 ID20

ステップ3：出力を表形式に変換するには、いくつかの形式を追加してください。

awk '{ print $2,$1,$3 }'列2（個数）と列1（生物名）を変更します。
sed 's/,$ID[^,]*$/\n# # \1/g'各コンマとIDを改行、スペースで区切られた2つのダミー文字、および#ID（GNUを使用sed）で置き換えます。
column -t表形式の指定
tr '#' ' '#ダミー文字をスペースに置き換える

Question 2

awkGNUとGNUの使用column：

awk -F'[][ ]*' '{print ($(NF-1)==n?OFS:$(NF-1)),$1; n=$(NF-1)}' OFS=, file \
 | awk -F, -v OFS=, 'NF==3{line=line RS $0;i++} NF==2{if(line)print i,line; line=$0; i=1}' \
 | column -t -n -s,

最初の awk コマンドは、次の形式で必須フィールドを抽出して表示します。

Papaver_somniferum,ID1
,,ID2
,,ID3
...

2番目のawkコマンドは、同じ名前のすべてのフィールドで構成される新しい行を作成し、その数を先頭に追加します。

最後に、列コマンドはオプションを使用して3つの列に結果を表示します-n。

5  Papaver_somniferum    ID1
                         ID2
                         ID3
                         ID4
                         ID5
4  Helianthus_annuus     ID6
                         ID7
...

Answer

awkGNUとGNUの使用column：

awk -F'[][ ]*' '{print ($(NF-1)==n?OFS:$(NF-1)),$1; n=$(NF-1)}' OFS=, file \
 | awk -F, -v OFS=, 'NF==3{line=line RS $0;i++} NF==2{if(line)print i,line; line=$0; i=1}' \
 | column -t -n -s,

最初の awk コマンドは、次の形式で必須フィールドを抽出して表示します。

Papaver_somniferum,ID1
,,ID2
,,ID3
...

2番目のawkコマンドは、同じ名前のすべてのフィールドで構成される新しい行を作成し、その数を先頭に追加します。

最後に、列コマンドはオプションを使用して3つの列に結果を表示します-n。

5  Papaver_somniferum    ID1
                         ID2
                         ID3
                         ID4
                         ID5
4  Helianthus_annuus     ID6
                         ID7
...

そのIDで生物の数を抽出しますか？

答え1

答え2

関連情報