複数の fastq ファイルのシーケンス番号を繰り返し計算します。

Question 1

シーケンスごとに4行を想定して可能なすべてのエラーを無視します...上記のコマンドは次の形式を使用する必要があります。

for file in *.fastq.gz; do echo -en $file "\t";echo "$(zcat $file| wc -l)"/4 |bc;done

Answer

シーケンスごとに4行を想定して可能なすべてのエラーを無視します...上記のコマンドは次の形式を使用する必要があります。

for file in *.fastq.gz; do echo -en $file "\t";echo "$(zcat $file| wc -l)"/4 |bc;done

Question 2

あなたはこれを実行しています：

(zcat $sample|wc -l)/4|bc

/4その中にある唯一のことは、シェルが理解していないので失敗します。何が欲しいのか疑問結果コマンドの値をzcat $sample|wc -l入力し、その値を印刷して/4に渡しますbc。その場合は、引用する$()必要があるだけでなく、()次のようにします。

echo "$(zcat $sample|wc -l)/4" | bc

したがって、これは次のことを意味します。

for sample in *.fastq.gz; do 
    echo -en $sample "\t"; echo "$(zcat $sample|wc -l)/4" | bc 
done

または、携帯性を向上させるには：

for sample in *.fastq.gz; do 
    printf '%s\t%s\n' "$sample" "$(echo "$(zcat "$sample" | wc -l)/4" | bc )"
done

または、次の場所で作業全体を完了することもできますawk。

for sample in *.fastq.gz; do 
    printf '%s\t' "$sample"
    zcat "$sample" | awk '!(NR % 4){k++}END{print k}'
done

ただし、fastq形式の定義には、ファイルにシーケンスごとに4行しかないことを示す内容はありません。データに精通している場合は、このアプローチを使用できますが、任意のfastqファイルを処理する必要がある場合は4行しかないとは考えられず、専用ツールを使用することをお勧めします。

このQ&Aが面白いかもしれません。fastqファイルの読み取りとベース数を数える簡単な方法は何ですか？。

しかもFASTQファイル形式仕様では、項目ごとに4行しかないと仮定できないことを示しています。つまり、過去7年間、臨床環境でヒトNGSデータを使用した幅広い経験から、私が見たすべてのファイルにはサンプルあたり4行しかありませんでした。しかし、私は長いデータの読み込みを扱っておらず、フォーマット自体がより多くのデータを読み取ることができるので、考慮する必要があります。

Answer