bioinformatics

awk を使用して新しい行を空白に置き換えます。
bioinformatics

awk を使用して新しい行を空白に置き換えます。

ディレクトリ内のすべてのファイルから生成されたテキストファイルがあります。このファイルを私が持っているスクリプトへの入力として使用したいが、正しく解析するには、特定の方法でフォーマットされたテキストファイルが必要です。 現在のテキストファイル(ファイル名リスト)の形式は次のとおりです。 A1_R1.fastq.gz A1_R2.fastq.gz A2_R1.fastq.gz A2_R2.fastq.gz A3_R1.fastq.gz A3_R2.fastq.gz RN各サンプルはタブで区切られ、同じ行になるようにペアになっている読み取り(同じ名前を持つが値...

Admin

sed コマンドは、パターンに続く行の単語を置き換えるために使用されます。
bioinformatics

sed コマンドは、パターンに続く行の単語を置き換えるために使用されます。

私は、50,000を超える遺伝子ID行とその配列を含む次のファイルを作業しています。 gene_A:3342234 CTCTTTCTTTTACGCCT gene_A:1244-5205 CTCTTTCTTTTACGCCT gene_A:1838438 CTCTTTCTTTTACGCCT gene_B:1848584 CTCTTTCTTTTACGCCT gene_B:1029-4920 CTCTTTCTTTTACGCCT gene_C:3849029 CTCTTTCTTTTACGCCT これらのすべてに遺伝子IDがあり、その後にコロン、7〜9桁の参照番号、お...

Admin

テキストファイル内の特定の列の文字列値を分割する方法
bioinformatics

テキストファイル内の特定の列の文字列値を分割する方法

Linuxシステムには2つの列を持つテキストファイルがあります。 1列= id_no(ほとんど5桁、一部は6桁)。 列2 = Genetic_markers(全長50674ビット)。 12345 0102010205 54322 2221110051 123456 1122011510 ファイルを次のように変更したいと思います。 12345 0 1 0 2 0 1 0 2 0 5 54322 2 2 2 1 1 1 0 0 5 1 123456 1 1 2 2 0 1 1 5 1 0 最初の列を数字に示すように右側に揃えるようにどのように変更で...

Admin

タブ区切りファイルの最初と5番目の列を検索して、5番目の列のスペースをタブに変換します。
bioinformatics

タブ区切りファイルの最初と5番目の列を検索して、5番目の列のスペースをタブに変換します。

タブで区切られた列を含むファイルがありますtsv。スペースで区切られた値を持つ5番目の列を取得したいと思います。区切りスペースをタブ区切りに変換し、新しいファイルとして保存します。 試み: cut -d"\t" -f"4" input.tsv awk -v OFS="\t" '$1=$1' input.tsv > output.tsv 入力する: Composite_Element_REF Gene_Symbol Chromosome Genomic_Coordinate TCGA-KL-8323-01A-21D-23...

Admin

異なる列の連続セルが同じ場合は、シェルスクリプトを使用して列の単語数を計算する方法!
bioinformatics

異なる列の連続セルが同じ場合は、シェルスクリプトを使用して列の単語数を計算する方法!

2列、3列、1列の連続セルが等しい場合、9列のC_R合計数を計算しようとします。S_Rファイルはベッド形式(タブ区切り形式)です。元のファイルは大きく、最初の列は染色体番号を定義します。ファイルの最初の数行は次のとおりです。 chr1 10200 10300 8 10000 10214 100 214 S_R chr1 10200 10300 8 10009 10233 100 224 S_R chr1 10200 10300 8 10014 10220 100 206 S_R c...

Admin

線のある部分を別の部分にコピー
bioinformatics

線のある部分を別の部分にコピー

最初の部分をコピーしたいです(エクスソスカEVm****t1_、いいえ'.p[番号]')「>」で始まる行を入力し、同じ行の最後の「:」の前にaを貼り付けます。 入力する: >IxoscaEVm2293881t1.p1 type:complete len:255 gc:Universal :13-219(+) MFLRQLGAPRFYYARLFLRFIAVTIGPFLKSFPEKMLFLTYFPFYFWQRFSNINKRRKLLPATFLTLG >IxoscaEVm2798449t1.p1 type:partial5 len:345 gc:U...

Admin

grep検索間の文字数の計算
bioinformatics

grep検索間の文字数の計算

grepコマンドを一連の他のコマンドと組み合わせて使用​​して一連の文字(fastaファイル内の「GAATTC」など)を見つけ、各一致の間に何文字があるかを計算する方法はありますか? ...

Admin

awk はタブ区切りファイルに列を追加しません。
bioinformatics

awk はタブ区切りファイルに列を追加しません。

次のコードを使用して、他の既存の列の計算に基づいて、タブ区切りのtxtファイルに2つの新しい列(15と16)を追加しています。 問題:新しい列データが端末に表示されますが、ファイルは列に更新されません。別のファイル()に送信すると列はcode ... > Sample.....2.txt存在しますが、区切り文字はタブから空白に変わります。 必須:タブ区切りファイルの既存の列計算に基づいて、コードの行に列15と16を追加します。 ファイル: Sample1_RVDB_sort_unique.txt パスワード: awk '{$15 = ($4/$13)*...

Admin

AWK:2つのキー列がファイル間で一致する場合は、一致しない行を維持しながら、あるファイルの列16を別のファイルの一致する行に追加します。
bioinformatics

AWK:2つのキー列がファイル間で一致する場合は、一致しない行を維持しながら、あるファイルの列16を別のファイルの一致する行に追加します。

2つのタブで区切られたファイル(FileA.tsvとFileB.tsv)があります。 ファイルA.tsv ID 制度法 円 いくつかの列があります... 長さ 196-0 196 0 ---- 12874 195-1 195 1 ---- 12874 56-0 56 0 ---- 3349 115-1 115 1 ---- 5297 ファイルAには何百もの行と12の列がありますが、ここではすべて説明しません。 2と3の各値は一意ではありませんが、特定の組み合わせは一意です。したがって、event_idは、2と3の値を連結し...

Admin

「0」と最初の2つのフィールドを除くcsvファイルのすべてのテキストを1に変換するには?
bioinformatics

「0」と最初の2つのフィールドを除くcsvファイルのすべてのテキストを1に変換するには?

いくつかの大きな .csv ファイルがあり、このファイルをバイナリ (1 と 0) 形式に変換したいと思います。最初の2つのフィールドを除いて、テキストを含むすべてのセルは1になり、0は0のままです。 head Test.csv Iss1,1,0,0,Hsapiens-I34,0,0,0,Mmusculus-H01,0,0 Iss1,11,0,Scerevisiae-U09,Hsapiens-I05,0,0,0,0,0,0 Iss1,21,0,0,Hsapiens-I05,0,0,0,Hsapiens-I31,0,0 Iss1,31,0,0,Mmusculu...

Admin

1022個のオープンファイルをマージするオープンファイルが多すぎてエラーが発生しましたか?
bioinformatics

1022個のオープンファイルをマージするオープンファイルが多すぎてエラーが発生しましたか?

私はsamtoolsを使ってbamファイルを座標でソートします。このコマンドを実行すると、多数のファイルが生成されます。次のコマンドを実行しましたが、次の samtools sort -o sorted.bam genomic_dataset.bam 結果が表示されます。 [bam_sort_core] 1022個のファイルをマージ中...開く:ファイルがあまりにも開いています。 検索してみると、開いているファイル数に制限があることがわかりました。出力はulimit -n1024です。データセットは約560 GB、実行時間は約15時間です。したがって...

Admin

余分なスペースで不規則なタイトルを変更する
bioinformatics

余分なスペースで不規則なタイトルを変更する

データを処理しています。このあいまいなファイル形式: SNP A1 A2 F1 I1 F2 I2 F3 I3 rs0001 A C 0.02 0.00 1.99 (最初の3フィールドの周りのスペースに注意してください) タイトルが非常に長く(500,000項目)、次のように変換したいと思います。 SNP A1 A2 F1_I1 F2_I2 F3_I3 rs0001 A C 0.02 0.00 1.99 ...不規則なスペースを削除または削除せずに使用する方が簡単です。参考までに、一貫性がある限り、これは...

Admin

出力ファイルを変更せずにsedを使用してテキストファイルから特定の文字列を削除しますか?
bioinformatics

出力ファイルを変更せずにsedを使用してテキストファイルから特定の文字列を削除しますか?

編集:ブロック引用テキストを追加しました。 acc.paired.txt照明サンプル名()を含むタブ区切りのテキストファイル()がありますhead。 SRR10598163_R1.fastq.gz SRR8916417_R2.fastq.gz SRR10598049_R1.fastq.gz SRR10598163_R2.fastq.gz SRR8916418_R1.fastq.gz SRR10598049_R2.fastq.gz SRR10598164_R1.fastq.gz SRR8916418_R2.fastq.gz SRR10598050_R...

Admin