「cat」を「無駄に」使用すると、パフォーマンスが向上する可能性があります。なぜ？

Question 1

これは決して「猫の無駄な行動」ではない。

some_command | cat | some_command

これは伝統的な意味では「猫の目の前の路地」ではなく、通常はエンクロージャの無知から発生します。代わりに猫のダイナミズムを持って何かをしようとする意図的な試みのように見えます。この場合はキャッシュだと思います。

私の2番目の考え

読み取りと書き込みのサイズに違いがなくても、検出できないものが機能する可能性があります。

まず（非常に重要）：ソートされていない配列よりもソートされた配列を処理する方が速いのはなぜですか？。 CPUがこのタスクを処理する順序を変更すると、タイミングが変わる可能性があります。中断（および他のプロセスに切り替える）なしでcat各実行時間を長くすることに成功すると、sortこれはCPUの分岐予測に大きな影響を与え、時間が長くなったり短くなったりする可能性があります。

次に、読み取り数とサイズが影響を受けない場合でも、ジョブを一時停止（ブロック）する必要がある回数は異なる場合があります。これはそれ自体でオーバーヘッドを増減することができます。したがって、読み出しと書き込みのサイズが同じであっても、（キャッシュ）階層は、１時間当たりの読み書きcat数を減らすことができる。read()write()

Catはソートを長く待つことで、中断することなくより多くの作業を実行し、各プロセスがブロックされる回数を減らすことができます。これは検出するのが難しいでしょう。

私の最初の考え

私の期待は、2つのバージョンを独自のスクリプトに配置し、strace -fそれぞれで実行すると、catを使用した例では、読み込みまたは書き込み呼び出しが少なくなることです。少なくともcat。sort実際には、私はそれがread()十分に大きなブロックにありますが、write()単一の行にしかないことを望みます。これは、それ自体が配管されるように設計されていないことを意味します。

ロックタックが指摘したように、彼の答え、catは128KBチャンクで読みます（ねえ）しかし、パイプは通常64KBだけバッファリングします。私の考えが正しい場合は、キャットがread()完了するのを待っている間、停止せずに書き込むことsortができる大きな（128 + 64KB）バッファを書き込み操作に提供します。回復すると、次の書き込みに渡すcatデータが多くなります（sort単一の書き込みで送信されたものよりもはるかに多い）sort。だから次の人はsort止まることなくその内容をたくさん読むことができます。

私も疑う次へ追加最も近いファイル階層は、catパフォーマンスにほとんどまたはまったく影響しません。これらのファイルはすでにRAMディスクにキャッシュされています。ただし、呼び出し間のレイヤーはsortバッファーとして機能するため、その数を減らす必要があります。これは実際に「catの役に立たない使用」、つまりcatを使用してファイルを読み取る状況です。これは次の形式です。

cat some_file | some_command

興味深い実験

パイプのバッファサイズを増やして同じ効果が得られるかどうかを知りたいです。正しいプログラミング言語（シェルではない）を使用して同じパイプを設定する場合。たとえば、Cでは、、、を使用してパイプを作成し、各パイプを最初に呼び出してバッファサイズを増やすことができます（参照pipe()：dup2()fork()exec()ioctl()パイプ容量)

Answer