awkを使用して必要な列を抽出して新しいファイルを生成するにはどうすればよいですか？

Question 1

各ファイルから関連レコードを抽出し、結果を2つの新しい一時ファイルに書き込む必要があります（おそらくawkキーソートsortを使用して）。以下は、ファイルの1つを処理する例です。

awk '$3 == "transcript" {printf("%s %s %s ", $3, $10, $12, $18);}' SampleA.GRCh38.gtf | sort -k 2 > tf1

その後、各レコードに各ファイルの最後の2つの列が含まれるようにjoinマージして作成された2つの一時/中間ファイルを使用できます。awk

join使用できるコマンドの例は次のとおりです。

join -o 1.1,1.2,1.3,2.3 -1 2 -2 2 tf1 tf2

実行する前に、ヘッダー行を印刷して（例：コマンドを使用printf）、出力のスペースをタブに置き換える（または使用する）、他のスクリプトを使用して出力フォーマットを指定joinできます。joinsedawk

これらの例では、両方のファイルを処理し、目的の出力を生成する（そして一時ファイルをクリーンアップするなど）スクリプトを作成できるはずです。

データファイルのサイズに応じて、1つまたは複数のプログラムでawkすべての操作を実行できます（つまり、両方のファイルで選択したすべてのデータを同時にメモリに簡単に保存できます）。pythonperl

Answer

各ファイルから関連レコードを抽出し、結果を2つの新しい一時ファイルに書き込む必要があります（おそらくawkキーソートsortを使用して）。以下は、ファイルの1つを処理する例です。

awk '$3 == "transcript" {printf("%s %s %s ", $3, $10, $12, $18);}' SampleA.GRCh38.gtf | sort -k 2 > tf1

その後、各レコードに各ファイルの最後の2つの列が含まれるようにjoinマージして作成された2つの一時/中間ファイルを使用できます。awk

join使用できるコマンドの例は次のとおりです。

join -o 1.1,1.2,1.3,2.3 -1 2 -2 2 tf1 tf2

実行する前に、ヘッダー行を印刷して（例：コマンドを使用printf）、出力のスペースをタブに置き換える（または使用する）、他のスクリプトを使用して出力フォーマットを指定joinできます。joinsedawk

これらの例では、両方のファイルを処理し、目的の出力を生成する（そして一時ファイルをクリーンアップするなど）スクリプトを作成できるはずです。

データファイルのサイズに応じて、1つまたは複数のプログラムでawkすべての操作を実行できます（つまり、両方のファイルで選択したすべてのデータを同時にメモリに簡単に保存できます）。pythonperl

Question 2

関心のある行にのみ18番目のフィールドがあるので、ファイルを削除してからjoinそのawkファイルを含むファイルを削除するだけです。NF==4他のすべての行には2つのフィールドしかありません。

計算されたパスの特定の仮定もありますが、SampleB適切に変更できます。

while IFS= read -r -d '' f; do                             #read the list of SampleA
        g=$(echo "$f" | sed "s/pleA/pleB/g")               #calculate path to SampleB
        if [[ -f "$g" ]]; then                             #check SampleB exists
                echo "$f" | sed "s/.*pleA\.//g"            #print sample No
                echo "Type transcript_id SampleA SampleB"  #print header
                                                           #do the join
                join -j 12 -o 1.3 -o 1.12 -o 1.18 -o2.18 <(sort -k 12 "$f") <(sort -k 12 "$g") | awk 'NF==4'
        fi   | sed 's/[;"]//g'| column -t                  #make it pretty
done < <(find . -type f -iname "*SampleA*" -print0)        #NULL separated list of SampleA

Answer

関心のある行にのみ18番目のフィールドがあるので、ファイルを削除してからjoinそのawkファイルを含むファイルを削除するだけです。NF==4他のすべての行には2つのフィールドしかありません。

計算されたパスの特定の仮定もありますが、SampleB適切に変更できます。

while IFS= read -r -d '' f; do                             #read the list of SampleA
        g=$(echo "$f" | sed "s/pleA/pleB/g")               #calculate path to SampleB
        if [[ -f "$g" ]]; then                             #check SampleB exists
                echo "$f" | sed "s/.*pleA\.//g"            #print sample No
                echo "Type transcript_id SampleA SampleB"  #print header
                                                           #do the join
                join -j 12 -o 1.3 -o 1.12 -o 1.18 -o2.18 <(sort -k 12 "$f") <(sort -k 12 "$g") | awk 'NF==4'
        fi   | sed 's/[;"]//g'| column -t                  #make it pretty
done < <(find . -type f -iname "*SampleA*" -print0)        #NULL separated list of SampleA

Question 3

次のコマンドを試してください

ステップ1

awk '$3 ~ /transcript/{print $0}' file1|awk '{print $3,substr($12,2,12),substr($NF,2,8)}' > out1

ステップ2

awk '$3 == "transcript" {print substr($NF,2,8)}' file2  > out2

ステップ3

paste out out1.txt | awk 'BEGIN{print "Type        transcript_id      SampleA      SampleB"}{print $0}'



Output

Type       transcript_id SampleA    SampleB
transcript MSTRG.7542.2 0.000000    1.000000
transcript MSTRG.7542.6 0.000000    3.000000
transcript MSTRG.7542.5 0.000000    0.000000

Answer

次のコマンドを試してください

ステップ1

awk '$3 ~ /transcript/{print $0}' file1|awk '{print $3,substr($12,2,12),substr($NF,2,8)}' > out1

ステップ2

awk '$3 == "transcript" {print substr($NF,2,8)}' file2  > out2

ステップ3

paste out out1.txt | awk 'BEGIN{print "Type        transcript_id      SampleA      SampleB"}{print $0}'



Output

Type       transcript_id SampleA    SampleB
transcript MSTRG.7542.2 0.000000    1.000000
transcript MSTRG.7542.6 0.000000    3.000000
transcript MSTRG.7542.5 0.000000    0.000000

awkを使用して必要な列を抽出して新しいファイルを生成するにはどうすればよいですか？

答え1

答え2

答え3

関連情報