このコードを実行して、vcfファイルで二重対立型バリアントをフィルタリングします。
bcftools view --max-alleles 2 --exclude-types indels merged.ecDNA.vcf.gz>merged.ecDNA2.vcf.gz
ただし、エラーメッセージが表示されます。
[E::vcf_parse_format] Number of columns at 1:219048632 does not match the number of samples (111 vs 231)
Error: VCF parse error
問題は、merged.ecDNA2.vcf.gz
それがまだ私のディレクトリに表示され、利用可能なvcfファイルのように見えることです。したがって、私のコードが実際に正常に動作しているように見えるvcfファイルを生成している場合、上記のエラーがまだ私の出力ファイルに影響を与えるかどうか疑問に思います。
この数字は何を1:219048632
参照する必要がありますか?
私もこのコードを試しました:
bcftools view -m2 -M2 -v snps merged.ecDNA.vcf.gz>merged.ecDNA3.vcf.gz
上記のコードと同じエラーメッセージが表示されます。
誰かがこのエラーメッセージの意味について一般的な説明を提供できる場合は、非常に役立ちます。
答え1
いくつかの理由で同じエラーが発生しましたが、一般的な理由は、VCFファイルの作成中にファイルが破損したためです。たとえば、.txtファイルから始めると、一部の行に他の行よりも多くの列がある可能性があります。
たとえば、一度は、行の終わりに予想されるポイントの後に新しい行を開始しないファイルを受け取りました。これにより、列数が2倍になり、同様のエラーが発生しました。
この場合、私がすることは、特定の場所を確認することです。
bcftools view -H merged.ecDNA2.vcf.gz | grep 219048632 -A 3 -B 3
219048632を検索すると、破損した行が見つかり、前後に3行が印刷されるため、実際の問題が何であるかを確認できます。