1行ずつ抽出して別々のファイルに保存

Question 1

sed -n '2762818,2853648p' /var/log/logfile > /var/log/output.txt

p印刷用

Answer

sed -n '2762818,2853648p' /var/log/logfile > /var/log/output.txt

p印刷用

Question 2

他の人が述べたように、最善のアプローチはおそらくシェルリダイレクトを使用することです。sedこれは個人的に好むものですが、おそらくこれを行うよりも効率的ではありません。headファイルから行が多すぎるように設計されています。

サイトには、大容量ファイルの場合は毎回うまくhead -n[num] | tail -n[num]機能しますsedが、パイプを完全に回避するよりも速くなる可能性があることを明確に示す他の答えがあります。

次のファイルを作成しました。

echo | dd cbs=5000000 conv=block | tr \  \\n >/tmp/5mil_lines

私はそれを実行しました：

{ head -n "$((ignore=2762817))" >&2
  head -n "$((2853648-ignore))" 
} </tmp/5mil_lines 2>/dev/null  |
sed -n '1p;$p'

sed先ほど見せるために、最初の行と最後の行だけをキャッチして使用しました...

2762818
2853648

{ ... ; }これは、コマンドをグループ化してそのグループの入力をリダイレクトすると、すべてのコマンドが... ; } <input同じ入力を共有するために機能します。ほとんどのコマンドは読み取り時に内部ファイル全体を消費するため、場合によっては内部ファイルの先頭から尾まで読み、何も残さないのが{ cmd1 ; cmd2; } <infile一般的です。cmd1cmd2

headしかし、常に指示されているように、対応するinfileを介してのみ検索するので、...

{ head -n [num] >/dev/null
  head -n [num]
} <infile

...場合によっては、最初の項目は[num]出力を見つけてダンプし、/dev/null2番目の項目は最初の項目が中断された場所に残り、読み取りを開始します。

あなたはできます...

{ head -n "$((ignore=2762817))" >/dev/null
  head -n "$((2853648-ignore))" >/path/to/outfile
} <infile

この構造は、他のタイプの複合コマンドにも適用されます。たとえば、

set "$((n=2762817))" "$((2853648-n))"
for n do head "-n$n" >&"$#"; shift
done <5mil_lines 2>/dev/null | 
sed -n '1p;$p'

...印刷...

2762818
2853648

ただし、次のように動作することもできます。

d=$(((  n=$(wc -l </tmp/5mil_lines))/43 ))      &&
until   [ "$(((n-=d)>=(!(s=143-n/d))))" -eq 0 ] &&
        head "-n$d" >>"/tmp/${s#1}.split"
do      head "-n$d" > "/tmp/${s#1}.split"       || ! break
done    </tmp/5mil_lines

シェルの上で最初$nに、$d変数を次に設定します。

$n
- wc私のテストファイルで報告された行数/tmp/5mil_lines
$d
- ここで、43の商はランダムに$n/43選択された除数です。

その後、ループはuntilそれをより小さい値$nに減らします。これにより、分割数が保存され、ループ内のその値を使用して名前付き出力ファイルが増えます。その結果、各反復は、infileから新しいoutfileに等しい数のewlineで区切られたフィールドを読み取り、ループ中に平均43回分割します。 infileを2回以上読み取らずに管理します。 1つ目は行数を計算するときであり、残りのジョブでは毎回outfileに書くだけの行だけを読み込みます。$d$d$s>/tmp/[num].split\nwc

実行後、以下の結果を確認しました。

tail -n1 /tmp/*split | grep .

出力：

==> /tmp/01.split <==
116279  
==> /tmp/02.split <==
232558  
==> /tmp/03.split <==
348837  
==> /tmp/04.split <==
465116  
==> /tmp/05.split <==
581395  
==> /tmp/06.split <==
697674  
==> /tmp/07.split <==
813953  
==> /tmp/08.split <==
930232  
==> /tmp/09.split <==
1046511 
==> /tmp/10.split <==
1162790 
==> /tmp/11.split <==
1279069 
==> /tmp/12.split <==
1395348 
==> /tmp/13.split <==
1511627 
==> /tmp/14.split <==
1627906 
==> /tmp/15.split <==
1744185 
==> /tmp/16.split <==
1860464 
==> /tmp/17.split <==
1976743 
==> /tmp/18.split <==
2093022 
==> /tmp/19.split <==
2209301 
==> /tmp/20.split <==
2325580 
==> /tmp/21.split <==
2441859 
==> /tmp/22.split <==
2558138 
==> /tmp/23.split <==
2674417 
==> /tmp/24.split <==
2790696 
==> /tmp/25.split <==
2906975 
==> /tmp/26.split <==
3023254 
==> /tmp/27.split <==
3139533 
==> /tmp/28.split <==
3255812 
==> /tmp/29.split <==
3372091 
==> /tmp/30.split <==
3488370 
==> /tmp/31.split <==
3604649 
==> /tmp/32.split <==
3720928 
==> /tmp/33.split <==
3837207 
==> /tmp/34.split <==
3953486 
==> /tmp/35.split <==
4069765 
==> /tmp/36.split <==
4186044 
==> /tmp/37.split <==
4302323 
==> /tmp/38.split <==
4418602 
==> /tmp/39.split <==
4534881 
==> /tmp/40.split <==
4651160 
==> /tmp/41.split <==
4767439 
==> /tmp/42.split <==
4883718 
==> /tmp/43.split <==
5000000

Answer