大きなテーブルファイルをawkとマージする方法は？

Question 1

split以下を使用して、フィールド10の2つの部分を配列（ここでは呼ばれますarr10）として抽出できます。

split($10, arr10, ":")

その後、配列の最初の要素と要素全体14の組み合わせに基づいてインデックスを作成できます。そのインデックスを使用すると、次のsum_of_112つの新しい配列を作成できますold_15。

sum_of_11[arr10[1]"\t"$14] += $11 # sum of all rows that have this index
old_15[arr10[1]"\t"$14] = $15     # just the value in the single most recent row

一緒にクリーンアップ（および設定OFS = "\t"）：

awk '{ split($10, arr10, ":");
       sum_of_11[arr10[1]"\t"$14] += $11;
       old_15[arr10[1]"\t"$14] = $15
     } END {
       OFS = "\t";
       for (i in sum_of_11) {
         print i, sum_of_11[i], old_15[i], old_15[i] - sum_of_11[i]
       }
     }' file

結果：

chromosome_1_Contig0.3916   gi|733214878|ref|NM_001303082.1|    477 708 231
chromosome_1_unplaced_Contig0.12366 gi|526117831|ref|NM_001281196.1|    637 1025    388
chromosome_1_unplaced_Contig0.3951  gi|526117967|ref|NM_001281232.1|    107 1518    1411
chromosome_1_unplaced_Contig0.12504 gi|526117831|ref|NM_001281196.1|    314 1025    711
chromosome_1_Contig0.1980   gi|952977790|ref|NM_001317128.1|    849 849 0

Answer

split以下を使用して、フィールド10の2つの部分を配列（ここでは呼ばれますarr10）として抽出できます。

split($10, arr10, ":")

その後、配列の最初の要素と要素全体14の組み合わせに基づいてインデックスを作成できます。そのインデックスを使用すると、次のsum_of_112つの新しい配列を作成できますold_15。

sum_of_11[arr10[1]"\t"$14] += $11 # sum of all rows that have this index
old_15[arr10[1]"\t"$14] = $15     # just the value in the single most recent row

一緒にクリーンアップ（および設定OFS = "\t"）：

awk '{ split($10, arr10, ":");
       sum_of_11[arr10[1]"\t"$14] += $11;
       old_15[arr10[1]"\t"$14] = $15
     } END {
       OFS = "\t";
       for (i in sum_of_11) {
         print i, sum_of_11[i], old_15[i], old_15[i] - sum_of_11[i]
       }
     }' file

結果：

chromosome_1_Contig0.3916   gi|733214878|ref|NM_001303082.1|    477 708 231
chromosome_1_unplaced_Contig0.12366 gi|526117831|ref|NM_001281196.1|    637 1025    388
chromosome_1_unplaced_Contig0.3951  gi|526117967|ref|NM_001281232.1|    107 1518    1411
chromosome_1_unplaced_Contig0.12504 gi|526117831|ref|NM_001281196.1|    314 1025    711
chromosome_1_Contig0.1980   gi|952977790|ref|NM_001317128.1|    849 849 0

Question 2

実際、あなたは正しい道を行っています。ただし、データ構造へのインデックスとしてフィールド10を使用する必要があります。

awk '{data[$10] = $14} END { for (d in data) print d " " data[d]; }'

複数のフィールドを区別する必要がある場合は、次のものを使用してください。

data[$10, "14"] = "x"; data[$10, "11"] = "y"

Answer

実際、あなたは正しい道を行っています。ただし、データ構造へのインデックスとしてフィールド10を使用する必要があります。

awk '{data[$10] = $14} END { for (d in data) print d " " data[d]; }'

複数のフィールドを区別する必要がある場合は、次のものを使用してください。

data[$10, "14"] = "x"; data[$10, "11"] = "y"

Question 3

awkファイルとして使用

 { split($10,A,":") ;
  B[A[1]]=$14 ; C[A[1]] += $11  }
 END { for ( a in B ) printf "%s\t%s\t%d\n",a,B[a],C[a] ;}

与えられた

chromosome_1_unplaced_Contig0.12366 gi|526117831|ref|NM_001281196.1|        637
chromosome_1_unplaced_Contig0.12504 gi|526117831|ref|NM_001281196.1|        314
chromosome_1_unplaced_Contig0.3951  gi|526117967|ref|NM_001281232.1|        107
chromosome_1_Contig0.1980   gi|952977790|ref|NM_001317128.1|        849
chromosome_1_Contig0.3916   gi|733214878|ref|NM_001303082.1|        477

他の要件を理解していません。しかし、

split($10,A,":")配列Aの10番目のフィールドは、「：」に基づいて分割されます。
B[A[1]]=$14 ;とても簡単です

プログラムファイルは以下を使用して呼び出されます。

awk -f se.awk data

Answer

awkファイルとして使用

 { split($10,A,":") ;
  B[A[1]]=$14 ; C[A[1]] += $11  }
 END { for ( a in B ) printf "%s\t%s\t%d\n",a,B[a],C[a] ;}

与えられた

chromosome_1_unplaced_Contig0.12366 gi|526117831|ref|NM_001281196.1|        637
chromosome_1_unplaced_Contig0.12504 gi|526117831|ref|NM_001281196.1|        314
chromosome_1_unplaced_Contig0.3951  gi|526117967|ref|NM_001281232.1|        107
chromosome_1_Contig0.1980   gi|952977790|ref|NM_001317128.1|        849
chromosome_1_Contig0.3916   gi|733214878|ref|NM_001303082.1|        477

他の要件を理解していません。しかし、

split($10,A,":")配列Aの10番目のフィールドは、「：」に基づいて分割されます。
B[A[1]]=$14 ;とても簡単です

プログラムファイルは以下を使用して呼び出されます。

awk -f se.awk data

大きなテーブルファイルをawkとマージする方法は？

答え1

答え2

答え3

関連情報