
新しい行に結合された文字数(ASCIIも可能)に基づいて入力ファイルを分割したいと思います。つまり、10000 文字で構成される各グループは、1 つのレコードとして処理され、子プロセスにパイプされる必要がありますが、10000 番目の文字が行の末尾にない場合は、行全体を含める必要があります。 )。各行は分割できないオブジェクトとして扱う必要があります。
これはGNU並列処理(または潜在的に有用なさまざまなツールを介して)可能ですか?
答え1
あなたが要求する内容は次のとおりです。
seq 100000 | parallel --block 10k --pipe wc
約10000バイトのチャンクを渡しますwc
が、行全体のみを提供します。
ブロックが少なくとも10KBになることを保証するものではありませんが、最大1行になります。