柔軟なパターンマッチング

Question 1

使用awk:

awk 'NR==FNR { sec[$1, $2]; next } !($1, $2) in sec' FS='/' file1 FS=' ' file2
0 14
0 15
0 20
7200 14
7200 15

これFS(F生産するSeerator) は、対応するファイルの前の各入力ファイルのフィールド区切り文字を定義します。

Answer

使用awk:

awk 'NR==FNR { sec[$1, $2]; next } !($1, $2) in sec' FS='/' file1 FS=' ' file2
0 14
0 15
0 20
7200 14
7200 15

これFS(F生産するSeerator) は、対応するファイルの前の各入力ファイルのフィールド区切り文字を定義します。

Question 2

最後の追加の質問に答えるには：

$ join -v 2 <(sed 's/ /:/' file1) <(sed 's/ /:/' file2) | sed 's/:/ /'
0 14 2 19
0 15 157 67
0 20 28 57
7200 14 34 247
7200 15 364 14

この答えの他の変形と同様にjoin（答えを提供します。オリジナル質問）、これは結合キーが空白のない単一の文字列であることを確認し、2番目のファイルで結合キーが最初のファイルのエントリと一致しない行を選択します。

これは、ファイルが同じ方法でソートされる必要があるという同じ仮定を作成します。join一度に2行だけがメモリに保持されるため、ファイル内grepのすべてのエントリをメモリに保持する必要がある他のソリューションと比較して、同じ利点があります。

元のファイルfile1とfile2質問を使用して、tr最初のファイルを2番目のファイルと同じ形式にすぐに変換し、変更されたデータを一連の行として使用して2番目のファイルから削除します。

$ grep -v -x -F -f <(tr '/' ' ' <file1) file2
0 14
0 15
0 20
7200 14
7200 15

ここで、ユーティリティは、変換された行と同じ行をgrepフィルタリング（削除、除外）するために使用されます。file2file1

この-xオプションは（通常の部分文字列一致ではなく）完全行一致を強制し、パターンを正規表現ではなく固定文字列として-F使用します。grepこの-fオプションは、ユーティリティが指定されたファイルからパターン（プロセス置換）を読み取り、その行が一致するように一般的な-v一致の意味を逆にするように指示します。確かに出力が一致します。

また、あなたの質問のいくつかのテキストに関連しています。

シェルループを使用してテキストを処理するのはなぜ悪い習慣と見なされますか？

より効率的なアプローチはを使用することです。規模が大きいjoin場合は良い考えかもしれません。file1大きな入力の場合を使用するよりもはるかに速いと予想されますgrep。

以下は、両方のファイルが同じ方法でソートされていると仮定し、2番目のファイルを最初のファイルと同じ形式（スペースをスラッシュに置き換えます）に変換して、空白のない行を生成します。変換方法では、デフォルトではjoinスペースを区切り文字として使用し、スペースで区切られた最初のフィールドだけでなく行全体も考慮する必要があります。

$ join -v 2 file1 <(tr ' ' '/' <file2) | tr '/' ' ' 
0 14
0 15
0 20
7200 14
7200 15

これにより、2つのデータセット間でリレーショナルJOIN操作が実行され、2番目の入力で一致しない行が変換されたjoin2番目のファイルに返されます。最終結果としてスペースで区切られたデータが必要なので、末尾のスラッシュをスペースで置き換えます。

これはいつでもメモリに2行以上のデータを保持しませんが、バリアントは最初のファイルgrepの内容全体をメモリに保持し、2番目のファイルの各行に対して2番目のファイルの各行をテストする必要があります。ラインファイル。

Answer