.tsv形式(ファイル名= corr_trans.tsv)のヒト転写データの大規模正方形相関行列ファイル(110,000 RXC)があります。マトリックスから成績表(例:ENST00000568709)に関する関連データを抽出しようとすると、結果は得られません。この成績表を含むヘッダーは表示されますが、関連データを含む基本行は表示されません。他のいくつかの成績表に対して同じ手順を試みたとき、最初の22000行の成績表の結果が出ました。それ以降はファイルを読み込めません。私の過去の知識/経験によると、これは改行エラーのためであり、tsvファイルから改行エラーを削除する方法を知りたいと思います。
出力ファイルは必要ありません。完全なマトリックスファイルを読みたいです。
ありがとう
サンプルデータ(ファイル名= corr_trans.tsv)
transcript_id ENST0000000233 ENST0000000412 ENST00000001008 ENST00000001146
ENST0000000233 1 0.128095164 0.122437557 0.032729413
ENST0000000412 0.128095164 1 -0.010030176 0.07378663
ENST00000001008 0.122437557 -0.010030176 1 0.011332091
ENST00000001146 0.032729413 0.07378663 0.011332091 1
ENST0000000412 コマンドを使用してデータを収集しようとすると
grep "ENST0000000233" corr_trans.tsv
出力を取得(2行)
transcript_id ENST0000000233 ENST0000000412 ENST0000001008 ENST00000001146
ENST0000000233 1 0.128095164 0.122437557 0.032729413
しかし、ENST00000001146でこれを試してみると
関連データがある行ではなく、1行だけが出力として取得されます。
transcript_id ENST0000000233 ENST0000000412 ENST0000001008 ENST00000001146
実際の行列では、このエラーは行22000以降に発生します。