GNU並列性を効果的に使用する方法

Question 1

私はあなたがGNU Parallelを使用しているという事実に本当に驚きました--pipe。私のテストの最大速度は通常約100MB / sです。

GNU Parallelでは、ボトルネックが発生する可能性が高いです。--pipeそれほど効率的ではありません。--pipepartただし、ここではCPUコアあたり1GB/s程度を得ることができます。

残念ながら、使用にはいくつかの制限があります--pipepart。

ファイルは検索可能でなければなりません（つまり、パイプなし）。
--recstart/--recend を使用してレコードの先頭を見つけることができる必要があります (つまり、圧縮ファイルはありません)。
行番号が不明です（したがって、4行のレコードが存在できません）。

例:

parallel --pipepart -a bigfile --block 100M grep somepattern

Answer

私はあなたがGNU Parallelを使用しているという事実に本当に驚きました--pipe。私のテストの最大速度は通常約100MB / sです。

GNU Parallelでは、ボトルネックが発生する可能性が高いです。--pipeそれほど効率的ではありません。--pipepartただし、ここではCPUコアあたり1GB/s程度を得ることができます。

残念ながら、使用にはいくつかの制限があります--pipepart。

ファイルは検索可能でなければなりません（つまり、パイプなし）。
--recstart/--recend を使用してレコードの先頭を見つけることができる必要があります (つまり、圧縮ファイルはありません)。
行番号が不明です（したがって、4行のレコードが存在できません）。

例:

parallel --pipepart -a bigfile --block 100M grep somepattern

Question 2

grepは非常に効率的です。並列に実行する必要はありません。命令の解凍にはさらにCPUが必要ですが、並列化することはできません。

入力を並列に分割するには、grepを介して一致する行を取得するよりも多くのCPUが必要です。

grepよりラインごとに多くのCPUが必要なものを使用したい場合は、状況が異なります。そうすれば、並列化はより意味があります。

速度を上げるには、ボトルネックがある場所を確認してください。解凍するか（他の解凍ツールやより良いCPUを使用するのに役立ちます）、ディスクから読み込むことをお勧めします（他の解凍ツールやより良いディスクシステムを使用するのに役立ちます）。

私の経験では、lzma（-2など）を使用してファイルを圧縮/圧縮解除する方が良い場合があります。 gzipより圧縮率が高いため、ディスクから読み取るのに必要なデータがはるかに少なく、速度も似ています。

Answer