10000個の数字（行ではない）ごとにファイルを分割

Question 1

awk 'NR==1 {n=$2}
     {
       file = sprintf("file.%.4d", ($2-n)/10000)
       if (file != last_file) {
         close(last_file)
         last_file = file
       }
       print > file
     }'

、...と書くでしょうfile.0000（ここではfile.0001数字は最初の行の数字です）。int(($2-n)/10000)n$2

ファイルの書き込みを停止するとすぐにファイルを閉じます。そうしないと、何百ものファイルの後に同時に開くファイル数の制限に達します（GNUはawkこの制限を解決できますが、パフォーマンスは急速に低下します）。

我々はこの数が常に増加すると仮定します。

Answer

awk 'NR==1 {n=$2}
     {
       file = sprintf("file.%.4d", ($2-n)/10000)
       if (file != last_file) {
         close(last_file)
         last_file = file
       }
       print > file
     }'

、...と書くでしょうfile.0000（ここではfile.0001数字は最初の行の数字です）。int(($2-n)/10000)n$2

ファイルの書き込みを停止するとすぐにファイルを閉じます。そうしないと、何百ものファイルの後に同時に開くファイル数の制限に達します（GNUはawkこの制限を解決できますが、パフォーマンスは急速に低下します）。

我々はこの数が常に増加すると仮定します。

Question 2

1行のバージョンをクラックします。たぶんもっと適しているかもしれませんコードゴルフしかし、このフォーラムより。これにより、分割1、分割2、分割3などのファイル名が生成されます。

awk '{if($2>b+9999){a++;b=$2}print >"split" a}' file.txt

出力ファイル名を分割001、分割002、分割003にするには追加の作業が必要ですsprintf。

awk '{if($2>b+9999){a++;b=$2}print >sprintf("split%03d",a)}' file.txt

@Stéphane Chazelasが見つけたgawkの速度低下の問題を避けるために、perlを使用してください。

perl -ne '(undef,$a)=split(/\s+/,$_);if($a>$b+9999){$c++;$b=$a}open(D,sprintf(">>ysplit%03d",$c));print D' <file.txt

Answer

1行のバージョンをクラックします。たぶんもっと適しているかもしれませんコードゴルフしかし、このフォーラムより。これにより、分割1、分割2、分割3などのファイル名が生成されます。

awk '{if($2>b+9999){a++;b=$2}print >"split" a}' file.txt

出力ファイル名を分割001、分割002、分割003にするには追加の作業が必要ですsprintf。

awk '{if($2>b+9999){a++;b=$2}print >sprintf("split%03d",a)}' file.txt

@Stéphane Chazelasが見つけたgawkの速度低下の問題を避けるために、perlを使用してください。

perl -ne '(undef,$a)=split(/\s+/,$_);if($a>$b+9999){$c++;$b=$a}open(D,sprintf(">>ysplit%03d",$c));print D' <file.txt

Question 3

#!/bin/bash
first=$( head -n1 file | awk -F" +" '{print $2}' )
last=$( tail -n1 file | awk -F" +" '{print $2}' )
for (( i=$first ; i<=$last ; i=i+10000 )) ; do
   awk -v start=$i -v end=$(($i+10000)) 'BEGIN { FS == " +" } { if ( $2 >= start && $2 < end ) print $0 }' file \
   >> interval_"$i"_to_"$(( $i+10000 ))"
done

テストのための間隔を100に設定します。

more inter*
::::::::::::::
interval_61336212_to_61346212
::::::::::::::
chr19   61336212        +       0       0       CG      CGT    
chr19   61336213        -       0       0       CG      CGG    
chr19   61336218        +       0       0       CG      CGG    
chr19   61336219        -       0       0       CG      CGC    
chr19   61336268        +       0       0       CG      CGG    
chr19   61336269        -       0       0       CG      CGA    
::::::::::::::
interval_61336312_to_61346312
::::::::::::::
chr19   61336402        +       0       0       CG      CGG    
chr19   61336403        -       0       0       CG      CGT

注：スペース間隔用に空のファイルが作成されます。空のファイルを削除するには、次を追加します。

for file in interval* ; do
  if [ ! -s "$file" ] ; then
    rm "$file"
  fi
done

ファイルはループの各ステップに対して実行されるため、for最も効率的ではありません。

Answer

#!/bin/bash
first=$( head -n1 file | awk -F" +" '{print $2}' )
last=$( tail -n1 file | awk -F" +" '{print $2}' )
for (( i=$first ; i<=$last ; i=i+10000 )) ; do
   awk -v start=$i -v end=$(($i+10000)) 'BEGIN { FS == " +" } { if ( $2 >= start && $2 < end ) print $0 }' file \
   >> interval_"$i"_to_"$(( $i+10000 ))"
done

テストのための間隔を100に設定します。

more inter*
::::::::::::::
interval_61336212_to_61346212
::::::::::::::
chr19   61336212        +       0       0       CG      CGT    
chr19   61336213        -       0       0       CG      CGG    
chr19   61336218        +       0       0       CG      CGG    
chr19   61336219        -       0       0       CG      CGC    
chr19   61336268        +       0       0       CG      CGG    
chr19   61336269        -       0       0       CG      CGA    
::::::::::::::
interval_61336312_to_61346312
::::::::::::::
chr19   61336402        +       0       0       CG      CGG    
chr19   61336403        -       0       0       CG      CGT

注：スペース間隔用に空のファイルが作成されます。空のファイルを削除するには、次を追加します。

for file in interval* ; do
  if [ ! -s "$file" ] ; then
    rm "$file"
  fi
done

ファイルはループの各ステップに対して実行されるため、for最も効率的ではありません。

Question 4

行数ではなく数だけを計算することを意味する場合：

awk 'NR==1 || n+10000<$2{n=$2; portion++}{print > FILENAME "." portion}' file

Answer

行数ではなく数だけを計算することを意味する場合：

awk 'NR==1 || n+10000<$2{n=$2; portion++}{print > FILENAME "." portion}' file

10000個の数字（行ではない）ごとにファイルを分割

答え1

答え2

答え3

答え4

関連情報