テキスト操作：ソートされたリストからx <= $ input値を削除して一般化します。

Question 1

@SatoKatsuraは既にコメントで最初の質問に答えています。awk -v cutoff=299851915672 'FNR == 1 || $1+0 > cutoff+0' inputFile

2番目の質問で質問したものを説明するのは難しいですが（アルゴリズムや疑似コードで質問を更新できますか？）、プロセスの多く（50？）インスタンスを一度に実行したいと思われます（CPUコアごとに1回システム）。）。それでは、ファイルを50個の小さなファイルに正しく分割し始めました。

パズルから欠けているのは、プロセスを並列に実行するにはGNU parallel（またはオプションをxargs使用）を使用する必要があるということです。-Pたとえば、

find . -type f -name 'inputFile-*' -print0 |
    parallel -n 1 \
    awk -v cutoff=299851915672 \
      \'FNR == 1 \|\| \$1+0 > cutoff+0 {print \> FILENAME".out"}\'

(下記参照1、2、3参照)

parallelデフォルトでは、システムではコアごとに1つのプロセスが実行されます。-j同時ジョブ数を指定するオプションを使用して、それを上書きできます。

スクリプトawkは、各入力ファイルの出力を.out同じ名前と追加の拡張子を持つファイルに保存します（例：inputFile-1->）inputFile-1.out。もう 1 つの大きなファイルにマージするには、次のようにしますcat。

cat inputFile*.out > complete.output.txt
rm -f *.out

注1：実行したいコマンドラインから引用符やその他の特殊文字（例：、、、、など）をエスケープするには、バックスラッシュを使用する必要があります|。スクリプトを別のファイル（最初の行として使用）に保存し、を使用して実行可能にし、スクリプトを並列に実行する方が簡単です。$>&;parallelawk#!/usr/bin/awk -fchmod

注2：あなたが実際に何を求めているのかわからないので、これはまさにあなたが要求するものを実行できないかもしれません。複数のファイルを並列に処理する方法の一般的な例です。awk（理解できない）要件を満たすには、スクリプトをほぼ確実に変更する必要があります。

注3：複数のプロセスを並列に実行して節約した時間は、入力を複数のファイルに分割するのに必要な時間と、各ファイルに対してawk新しいプロセスインスタンス（スクリプトなど）を起動するオーバーヘッドよりはるかに大きいことがわかります。文書。これは、ファイルの性質とサイズ、および各ファイルに対して実行される処理の性質によって異なります。並行して実行しても、常に結果をより早く得るという意味ではありません。または、実行中の作業が複雑すぎて理解しにくく、他のデータと複製するのが難しい場合があります。

Answer