列値をその列値の平均で置き換えます。

Question 1

GNU datamash、split（GNU coreutils）、および以下を使用してくださいawk。

#!/bin/bash

# remove header line and split `input_file` into n files `split00000`, `split00001`...
# with max. 4 lines each (use `-l50` for your data file)
split -d -a5 -l4 <(tail -n+2 input_file) split

{   head -n1 input_file      # add header
    for fsplit in split*; do
        mean=$(datamash -W mean 7 < "$fsplit") # calculate mean value
        awk -v mean="$mean" '{ print $1,$2,$3,$4,$5,$6,mean,$8,$9 }' "$fsplit"
    done
} | column -t > output_file  # format as table and write result

rm split*                    # cleanup

このスクリプトでは、データ（破線の削除）を入力として使用し、4つの値のみを平均として使用します。スクリプトのデータファイルに
置き換えます。それはあなたがするのとほぼ同じです。私はすべてのことをするだけで実行します。-l4-l50splitdatamash

入力ファイル：

$ cat input_file
trait     effect     snp       chr      pos   snp_effect      weight          variance_explained        var_a_hat
  1         2         1         1        54  0.2030156E-02   1.251482                  0                    0
  1         2         2         1       689 -0.3726744E-03  0.9660012                  0                    0
  1         2         3         1      1234  0.4801369E-03  0.9823542                  0                    0
  1         2         4         1      1280 -0.1104844E-03  0.9272357                  0                    0
  1         2         5         1      2610 -0.1296295E-02   1.115933                  0                    0
  1         2    481971        26   4897157 -0.7846317E-04  0.9226092                  0                    0
  1         2    481972        26   4898314 -0.3934468E-03  0.9691408                  0                    0
  1         2    481973        26   4898376 -0.7204678E-03   1.019935                  0                    0
  1         2    481974        26   4898606 -0.1522481E-03  0.9333048                  0                    0

結果：

$ cat output_file
trait  effect  snp     chr  pos      snp_effect      weight       variance_explained  var_a_hat
1      2       1       1    54       0.2030156E-02   1.031768275  0                   0
1      2       2       1    689      -0.3726744E-03  1.031768275  0                   0
1      2       3       1    1234     0.4801369E-03   1.031768275  0                   0
1      2       4       1    1280     -0.1104844E-03  1.031768275  0                   0
1      2       5       1    2610     -0.1296295E-02  1.0069045    0                   0
1      2       481971  26   4897157  -0.7846317E-04  1.0069045    0                   0
1      2       481972  26   4898314  -0.3934468E-03  1.0069045    0                   0
1      2       481973  26   4898376  -0.7204678E-03  1.0069045    0                   0
1      2       481974  26   4898606  -0.1522481E-03  0.9333048    0                   0

Answer

GNU datamash、split（GNU coreutils）、および以下を使用してくださいawk。

#!/bin/bash

# remove header line and split `input_file` into n files `split00000`, `split00001`...
# with max. 4 lines each (use `-l50` for your data file)
split -d -a5 -l4 <(tail -n+2 input_file) split

{   head -n1 input_file      # add header
    for fsplit in split*; do
        mean=$(datamash -W mean 7 < "$fsplit") # calculate mean value
        awk -v mean="$mean" '{ print $1,$2,$3,$4,$5,$6,mean,$8,$9 }' "$fsplit"
    done
} | column -t > output_file  # format as table and write result

rm split*                    # cleanup

このスクリプトでは、データ（破線の削除）を入力として使用し、4つの値のみを平均として使用します。スクリプトのデータファイルに
置き換えます。それはあなたがするのとほぼ同じです。私はすべてのことをするだけで実行します。-l4-l50splitdatamash

入力ファイル：

$ cat input_file
trait     effect     snp       chr      pos   snp_effect      weight          variance_explained        var_a_hat
  1         2         1         1        54  0.2030156E-02   1.251482                  0                    0
  1         2         2         1       689 -0.3726744E-03  0.9660012                  0                    0
  1         2         3         1      1234  0.4801369E-03  0.9823542                  0                    0
  1         2         4         1      1280 -0.1104844E-03  0.9272357                  0                    0
  1         2         5         1      2610 -0.1296295E-02   1.115933                  0                    0
  1         2    481971        26   4897157 -0.7846317E-04  0.9226092                  0                    0
  1         2    481972        26   4898314 -0.3934468E-03  0.9691408                  0                    0
  1         2    481973        26   4898376 -0.7204678E-03   1.019935                  0                    0
  1         2    481974        26   4898606 -0.1522481E-03  0.9333048                  0                    0

結果：

$ cat output_file
trait  effect  snp     chr  pos      snp_effect      weight       variance_explained  var_a_hat
1      2       1       1    54       0.2030156E-02   1.031768275  0                   0
1      2       2       1    689      -0.3726744E-03  1.031768275  0                   0
1      2       3       1    1234     0.4801369E-03   1.031768275  0                   0
1      2       4       1    1280     -0.1104844E-03  1.031768275  0                   0
1      2       5       1    2610     -0.1296295E-02  1.0069045    0                   0
1      2       481971  26   4897157  -0.7846317E-04  1.0069045    0                   0
1      2       481972  26   4898314  -0.3934468E-03  1.0069045    0                   0
1      2       481973  26   4898376  -0.7204678E-03  1.0069045    0                   0
1      2       481974  26   4898606  -0.1522481E-03  0.9333048    0                   0

Question 2

awk -v mod=50 '
     BEGIN{ if(!mod) {mod=50} };

     NR==1 {print;next};

     (NR+1) % mod == 0 {
       $7=sum/count;
       print;
       sum=count=0;
       next;
     };

     {count++; sum+=$7}

     END {
       if (((NR+1) % mod)) != 0) {
         $7=sum/count;
         print;
       };
     }' snp_sol

これにより、ヘッダー行が変更されずに印刷されます。次に、50の入力行ごとに$ 7の値を計算された平均に置き換えて、行を印刷します。最終入力ラインでも同じことを行います。そして、もし以前に印刷されたことはありません。

他のすべての入力ラインの場合はインクリメントされcount（行カウンタ）$7（sumその入力ラインを含むブロックのすべての$ 7値の合計mod）に追加されます。

一時ファイルがなく、同じデータが再実行されず、awkシェルループが複数回分岐しません。非常に単純なアルゴリズムを使用して入力ファイルを繰り返すだけです。

mod注：係数で50をハードコードする代わりに、名前付き変数を使用してください。コマンドラインで指定されていない場合、デフォルトは50です-v mod=n。

Answer

awk -v mod=50 '
     BEGIN{ if(!mod) {mod=50} };

     NR==1 {print;next};

     (NR+1) % mod == 0 {
       $7=sum/count;
       print;
       sum=count=0;
       next;
     };

     {count++; sum+=$7}

     END {
       if (((NR+1) % mod)) != 0) {
         $7=sum/count;
         print;
       };
     }' snp_sol

これにより、ヘッダー行が変更されずに印刷されます。次に、50の入力行ごとに$ 7の値を計算された平均に置き換えて、行を印刷します。最終入力ラインでも同じことを行います。そして、もし以前に印刷されたことはありません。

他のすべての入力ラインの場合はインクリメントされcount（行カウンタ）$7（sumその入力ラインを含むブロックのすべての$ 7値の合計mod）に追加されます。

一時ファイルがなく、同じデータが再実行されず、awkシェルループが複数回分岐しません。非常に単純なアルゴリズムを使用して入力ファイルを繰り返すだけです。

mod注：係数で50をハードコードする代わりに、名前付き変数を使用してください。コマンドラインで指定されていない場合、デフォルトは50です-v mod=n。

列値をその列値の平均で置き換えます。

答え1

答え2

関連情報