GNU並列と分割の使用

Question 1

--pipelineを使用してください：

cat 2011.psv | parallel --pipe -l 50000000 ./carga_postgres.sh

ファイルではなく標準入力から読み取るには ./carga_postgres.sh が必要で、GNU パラレルバージョン < 20130222 では速度が遅い

正確に50000000行を必要としない場合は、--blockが高速です。

cat 2011.psv | parallel --pipe --block 500M ./carga_postgres.sh

これにより、約 500 MB の分割チャンクが \n 渡されます。

./carga_postgres.shには何が含まれているのかわかりませんが、ユーザー名とパスワードを含むpsqlが含まれているようです。この場合、GNU SQL（GNU Parallelの一部）を使用できます。

cat 2011.psv | parallel --pipe --block 500M sql pg://user:pass@host/db

主な利点は、一時ファイルを保存する必要はありませんが、すべてのファイルをメモリ/パイプラインに保存できることです。

./carga_postgres.sh が標準入力から読み取れないがファイルから読み取る必要がある場合は、ファイルに保存できます。

cat 2011.psv | parallel --pipe --block 500M "cat > {#}; ./carga_postgres.sh {#}"

大規模な雇用はしばしば途中にあります。 GNU Parallel は失敗したタスクを再実行することで助けることができます。

cat 2011.psv | parallel --pipe --block 500M --joblog my_log --resume-failed "cat > {#}; ./carga_postgres.sh {#}"

失敗した場合は、上記のコマンドを再実行できます。正常に処理されたブロックはスキップされます。

Answer

--pipelineを使用してください：

cat 2011.psv | parallel --pipe -l 50000000 ./carga_postgres.sh

ファイルではなく標準入力から読み取るには ./carga_postgres.sh が必要で、GNU パラレルバージョン < 20130222 では速度が遅い

正確に50000000行を必要としない場合は、--blockが高速です。

cat 2011.psv | parallel --pipe --block 500M ./carga_postgres.sh

これにより、約 500 MB の分割チャンクが \n 渡されます。

./carga_postgres.shには何が含まれているのかわかりませんが、ユーザー名とパスワードを含むpsqlが含まれているようです。この場合、GNU SQL（GNU Parallelの一部）を使用できます。

cat 2011.psv | parallel --pipe --block 500M sql pg://user:pass@host/db

主な利点は、一時ファイルを保存する必要はありませんが、すべてのファイルをメモリ/パイプラインに保存できることです。

./carga_postgres.sh が標準入力から読み取れないがファイルから読み取る必要がある場合は、ファイルに保存できます。

cat 2011.psv | parallel --pipe --block 500M "cat > {#}; ./carga_postgres.sh {#}"

大規模な雇用はしばしば途中にあります。 GNU Parallel は失敗したタスクを再実行することで助けることができます。

cat 2011.psv | parallel --pipe --block 500M --joblog my_log --resume-failed "cat > {#}; ./carga_postgres.sh {#}"

失敗した場合は、上記のコマンドを再実行できます。正常に処理されたブロックはスキップされます。

Question 2

GNU Parallelで--pipeと--pipepartを使用しないのはなぜですか？これにより、追加のcatが削除され、ディスクから直接ファイルを読み始めます。

parallel --pipe --pipepart -a 2011.psv --block 500M ./carga_postgres.sh

Answer

GNU Parallelで--pipeと--pipepartを使用しないのはなぜですか？これにより、追加のcatが削除され、ディスクから直接ファイルを読み始めます。

parallel --pipe --pipepart -a 2011.psv --block 500M ./carga_postgres.sh

Question 3

ここに投稿された回答が非常に複雑であることがわかったので、Stack Overflowに連絡して回答を受けました。これ答え：

使用する場合GNU split、--filterオプションを使用してこれを行うことができます。

'--filter = command'
このオプションを使用すると、単に各出力ファイルに書き込むのではなく、指定されたシェルコマンドがパイプを介して各出力ファイルに書き込まれます。コマンドは、コマンドを呼び出すたびに異なる出力ファイル名に設定されている$ FILE環境変数を使用する必要があります。

ファイルを生成し、バックグラウンドでCargo_postgres.shを起動するシェルスクリプトを生成できます。

#! /bin/sh

cat >$FILE
./carga_postgres.sh $FILE &

このスクリプトをフィルタとして使用します。

split -l 50000000 --filter=./filter.sh 2011.psv

Answer