質問

Question 1

これを行う方法はいくつかあります。最も簡単なのはおそらくawk

$ awk -F$'\t' '$2 = /helicopter/ {print $3}' input.txt | head -n 10000
0/3/3032.jpg
0/3/3034.jpg

大文字と小文字を区別せずに単語全体を一致させるには、次のようにします。

awk -F$'\t' 'tolower($2) ~ /\<helicopter\>/ { print $3}' input.txt | head -n 10000

（（単語の境界を表示）のみ機能できます。 Linuxを使用している場合はこれが標準です\<。また、比較演算子がから変更されました。\>gawk=~

Answer

これを行う方法はいくつかあります。最も簡単なのはおそらくawk

$ awk -F$'\t' '$2 = /helicopter/ {print $3}' input.txt | head -n 10000
0/3/3032.jpg
0/3/3034.jpg

大文字と小文字を区別せずに単語全体を一致させるには、次のようにします。

awk -F$'\t' 'tolower($2) ~ /\<helicopter\>/ { print $3}' input.txt | head -n 10000

（（単語の境界を表示）のみ機能できます。 Linuxを使用している場合はこれが標準です\<。また、比較演算子がから変更されました。\>gawk=~

Question 2

LC_ALL=Cご使用の環境でローカルに設定することもできます。

LC_ALLUTF8ロケールの場合、grepが一致する前に入力ストリームをUTF8にデコードする必要があるため、作業速度が大幅に遅くなる可能性があります。grep

Answer

LC_ALL=Cご使用の環境でローカルに設定することもできます。

LC_ALLUTF8ロケールの場合、grepが一致する前に入力ストリームをUTF8にデコードする必要があるため、作業速度が大幅に遅くなる可能性があります。grep

Question 3

おそらく切り取ろうとしてはいけませんcut。実際に、32M入力ラインを処理するためにパイプラインを単一のプロセスにまとめようとすると、タスクの完全な完了時間に悪影響を及ぼす可能性が高くなります。ただし、これはタスクを実行しているコンピュータの種類によって異なります。

データを処理するマシンに複数のプロセッサコアがある場合、通常はワークループを単一のプロセスに統合することは、タスク全体を単一のプロセッサコアに統合することを意味します。これは、プロセッサコアが1つしかないシステム、またはCPU時間全体が重要な場合に理想的です。

つまり、grep2番目のフィールドのみを使用できます。

grep -E $'\t(.* )?yellow( .*)?\t' <infile

...このパターンは、1行の2つのタブ文字の間にある文字列と一致し、両方が空白またはフィールド区切りタブ文字で区切られた文字列とのみ一致します。 GNUでは、ax matchスイッチをgrep追加して-m出力を10K以下に制限することもできます。だから...

grep -m10000 -E $'\t(.* )?yellow( .*)?\t' <infile | cut -f3

...全体の作業を完了するのに十分です。

Answer

おそらく切り取ろうとしてはいけませんcut。実際に、32M入力ラインを処理するためにパイプラインを単一のプロセスにまとめようとすると、タスクの完全な完了時間に悪影響を及ぼす可能性が高くなります。ただし、これはタスクを実行しているコンピュータの種類によって異なります。

データを処理するマシンに複数のプロセッサコアがある場合、通常はワークループを単一のプロセスに統合することは、タスク全体を単一のプロセッサコアに統合することを意味します。これは、プロセッサコアが1つしかないシステム、またはCPU時間全体が重要な場合に理想的です。

つまり、grep2番目のフィールドのみを使用できます。

grep -E $'\t(.* )?yellow( .*)?\t' <infile

...このパターンは、1行の2つのタブ文字の間にある文字列と一致し、両方が空白またはフィールド区切りタブ文字で区切られた文字列とのみ一致します。 GNUでは、ax matchスイッチをgrep追加して-m出力を10K以下に制限することもできます。だから...

grep -m10000 -E $'\t(.* )?yellow( .*)?\t' <infile | cut -f3

...全体の作業を完了するのに十分です。

アイデア