組み込みLinuxのパイプラインコマンドパフォーマンス

Question 1

時には物事を分析する方が簡単です。

サンプル入力ファイルを作成しました。

aaaaa:bbbbb:ccccc
aaaaa:bbbbb:ccccc
aaaaa:bbbbb:ccccc
aaaaa:bbbbb:ccccc
field:bbbbb:ccccc
aaaaa:bbbbb:ccccc
aaaaa:bbbbb:ccccc
aaaaa:bbbbb:ccccc
aaaaa:bbbbb:ccccc

シェルスクリプト 'a.sh':

#!/bin/bash
for i in `seq 1 1000`; do
        cat test.dat | grep ^field | head -n1 | sed 's/:/ /' | awk '{print $1}' >/dev/null
done

シェルスクリプト 'b.sh':

#!/bin/bash
for i in `seq 1 1000`; do
        awk -F':' '/^field/ {print $1; exit}' test.dat >/dev/null
done

はじめに：

time ./a.sh
real    0m10.253s
user    0m5.526s
sys 0m8.668s

time ./b.sh
real    0m3.274s
user    0m1.288s
sys 0m1.783s

（これは私が愛している2008 MacBook、2.4 GHz Intel Core 2 Duoで行われました。）

あなたのバージョンが数倍速いことは明らかです。しかし、これは1000通貨の時間です。このシェルコードが実行される頻度によっては、数ミリ秒しか節約できません。

Answer

時には物事を分析する方が簡単です。

サンプル入力ファイルを作成しました。

aaaaa:bbbbb:ccccc
aaaaa:bbbbb:ccccc
aaaaa:bbbbb:ccccc
aaaaa:bbbbb:ccccc
field:bbbbb:ccccc
aaaaa:bbbbb:ccccc
aaaaa:bbbbb:ccccc
aaaaa:bbbbb:ccccc
aaaaa:bbbbb:ccccc

シェルスクリプト 'a.sh':

#!/bin/bash
for i in `seq 1 1000`; do
        cat test.dat | grep ^field | head -n1 | sed 's/:/ /' | awk '{print $1}' >/dev/null
done

シェルスクリプト 'b.sh':

#!/bin/bash
for i in `seq 1 1000`; do
        awk -F':' '/^field/ {print $1; exit}' test.dat >/dev/null
done

はじめに：

time ./a.sh
real    0m10.253s
user    0m5.526s
sys 0m8.668s

time ./b.sh
real    0m3.274s
user    0m1.288s
sys 0m1.783s

（これは私が愛している2008 MacBook、2.4 GHz Intel Core 2 Duoで行われました。）

あなたのバージョンが数倍速いことは明らかです。しかし、これは1000通貨の時間です。このシェルコードが実行される頻度によっては、数ミリ秒しか節約できません。

Question 2

パフォーマンスは複雑です。確かに知ることができる唯一の方法は、実際の負荷を持つ実際のシステムをベンチマークすることです。

複数のユーティリティのためにパイプを実行するには確かにコストがかかります。このコストは文字列操作と比較して非常に高いです。ただし、データ量が十分に大きい場合は、特別なツールがタスクをより迅速に完了でき、並列データ処理が可能になり、パイプラインソリューションが高速になる可能性があります（マシンがマルチコアで有用なデータが十分にある場合）。同時に実行して価値のあるものにすることができる処理です。ただし、データ量が小さい場合、プログラムの起動コストは支配的です。主な要因が変わる時点は、システムと使用シナリオによって大きく異なります。

一般に、ツールが一般的であるほど、速度は遅くなります。したがって、できることgrepがある場合は通常行うことができますが、それほど高速で遅くすることはできません。これは単なる経験の法則です。参照すると、awkまたはsedが他のツールよりも優れている特定の実装と特定のワークロードを見つけることができます。データ量は、違いを観察するのに十分な大きさでなければなりません。headsedawk

データ量が小さい場合、プロセスの開始回数は主要コストです。一般に、ツールがより一般的であるほど、起動速度は遅くなります。複数のツールを実行すると、より多くのコードをメモリにロードする必要があるため、パフォーマンスコストが発生します。ただし、すべてのツールが1つの実行可能ファイルにグループ化されているBusyBoxを使用すると、これらの側面は最小限に抑えられます。

から始まる

cat file | grep ^field | head -n1 | sed 's/:/ /' | awk '{print $1}'

呼び出しはcat役に立たず、パフォーマンスには役立ちません。データ量が非常に多い場合は、を使用することにgrep ^field | head -n1 | sed 's/:/ /' いくつかの利点があるかもしれませんが、ほとんどの場合

<file sed -n '/^field/ { s/:/ /p; q; }'

複数のプロセスを待つ必要がないため、より高速です。

awk呼び出しはここではまったく必要ありません。前にコロンがない場合、コマンドは次のようになります。

<file sed -n '/^field/ { s/:.*//p; q; }'

またはgrep有利だと判断した場合

<file grep '^field' | sed -e 's/:.*//' -e 'q'

前にコロンがある場合は、s/^::*//コマンドの先頭に追加しますsed。

Answer