リストの文字列が行の最初の12文字以内で見つかった場合は、大容量ファイルから行を削除しますか？

Question 1

そしてgrep：

grep -vwf file matrix > matrix.new
mv matrix.new matrix

パターン入力ファイル-f FILEとして使用するオプションFILE
-w単語全体を構成する一致を含む行のみを選択するオプション
-v一致しない行を選択するオプション

空行はfile許可されません。

あるいは、識別子ファイルを手動で生成する場合は、アンカーを使用して行の^先頭を一致させ、各識別子の後にスペース文字を追加してパターンの終わりを表示します。

printf '^%s \n' denovo{1,100,1000,100000} > file
grep -vf file matrix > matrix.new
mv matrix.new matrix

Answer

そしてgrep：

grep -vwf file matrix > matrix.new
mv matrix.new matrix

パターン入力ファイル-f FILEとして使用するオプションFILE
-w単語全体を構成する一致を含む行のみを選択するオプション
-v一致しない行を選択するオプション

空行はfile許可されません。

あるいは、識別子ファイルを手動で生成する場合は、アンカーを使用して行の^先頭を一致させ、各識別子の後にスペース文字を追加してパターンの終わりを表示します。

printf '^%s \n' denovo{1,100,1000,100000} > file
grep -vf file matrix > matrix.new
mv matrix.new matrix

Question 2

努力する：

$ awk 'FNR==NR{ids[$1]; next} !($1 in ids)' ids file
denovo10 someverylaaargenumbers and lotandlotsoftextuntil 5400........
denovo10000 someverylaaargenumbers and lotandlotsoftextuntil 5400.....
denovo184117 someverylaaargenumbers and lotandlotsoftextuntil 5400......

仕組み：

FNR==NR{ids[$1]; next}

最初のファイルを読み込むと、idを持つids連想配列にキーが生成されます。idsその後、残りのコマンドをスキップしてその行にnext移動します。
!($1 in ids)

2番目のファイルを読み取るときに最初のフィールドが連想配列のキーではない場合、その行は印刷されますids。

ソースファイルの更新

コードが正しく動作すると思われる場合は、ファイルを変更できます。

awk 'FNR==NR{ids[$1]; next} !($1 in ids)' ids file >tmp && mv tmp file

Answer

努力する：

$ awk 'FNR==NR{ids[$1]; next} !($1 in ids)' ids file
denovo10 someverylaaargenumbers and lotandlotsoftextuntil 5400........
denovo10000 someverylaaargenumbers and lotandlotsoftextuntil 5400.....
denovo184117 someverylaaargenumbers and lotandlotsoftextuntil 5400......

仕組み：

FNR==NR{ids[$1]; next}

最初のファイルを読み込むと、idを持つids連想配列にキーが生成されます。idsその後、残りのコマンドをスキップしてその行にnext移動します。
!($1 in ids)

2番目のファイルを読み取るときに最初のフィールドが連想配列のキーではない場合、その行は印刷されますids。

ソースファイルの更新

コードが正しく動作すると思われる場合は、ファイルを変更できます。

awk 'FNR==NR{ids[$1]; next} !($1 in ids)' ids file >tmp && mv tmp file

リストの文字列が行の最初の12文字以内で見つかった場合は、大容量ファイルから行を削除しますか？

答え1

答え2

ソースファイルの更新

関連情報