ファイル名とハッシュを含むテキストファイル - 重複ハッシュを含む行を抽出する

Question

awkこの2段階の解決策よりも悪いかもしれません。

awk 'NR == FNR{if ($2 in a) b[$2]++;a[$2]++; next}; $2 in b' file file

最初のステップでは、配列を使用してb複数回発生したハッシュを追跡します。 2番目のパスでは、ハッシュ値がある場合はレコードを印刷します。b

交互に

sort -k2,2 file | uniq -f 1 -D

これには、2番目のフィールドに基づいてファイルをソートし、重複uniqレコードを印刷するようにパイプ処理することが含まれます（比較を実行するときに最初のフィールドをスキップする方法-f 1）。入力ファイルのサイズを考慮すると、これはリソース集約的である可能性があります。

Answer 1

awkこの2段階の解決策よりも悪いかもしれません。

awk 'NR == FNR{if ($2 in a) b[$2]++;a[$2]++; next}; $2 in b' file file

最初のステップでは、配列を使用してb複数回発生したハッシュを追跡します。 2番目のパスでは、ハッシュ値がある場合はレコードを印刷します。b

交互に

sort -k2,2 file | uniq -f 1 -D

これには、2番目のフィールドに基づいてファイルをソートし、重複uniqレコードを印刷するようにパイプ処理することが含まれます（比較を実行するときに最初のフィールドをスキップする方法-f 1）。入力ファイルのサイズを考慮すると、これはリソース集約的である可能性があります。

関連情報