一致する重複条件に基づいて重複行数を見つける

Question 1

一部のuniq実装では、次のことができます。

$ <file cut -c-6 | sort | uniq -cd
   2 111111
   2 112114

すべての実装が結合-c（計算）および-d（重複項目のみ出力）をサポートするわけではありません。

そうでない場合は、uniq -cパイプを使用して接続するawk '$1 > 1'か、すべてをするawkこれにより、ソート操作が節約されます（ただし、一意の文字列が多い場合は多くのメモリを使用できます（ここでは最大100万の異なる6つの文字列がありますが、それほど多くはありません））。

Answer

一部のuniq実装では、次のことができます。

$ <file cut -c-6 | sort | uniq -cd
   2 111111
   2 112114

すべての実装が結合-c（計算）および-d（重複項目のみ出力）をサポートするわけではありません。

そうでない場合は、uniq -cパイプを使用して接続するawk '$1 > 1'か、すべてをするawkこれにより、ソート操作が節約されます（ただし、一意の文字列が多い場合は多くのメモリを使用できます（ここでは最大100万の異なる6つの文字列がありますが、それほど多くはありません））。

Question 2

awk '
 {a[substr($0,1,6)]++} 
 END {for (i in a) {if (a[i] > 1) printf "%s (%d)\n", i, a[i]}}
' file
111111 (2)
112114 (2)

Answer

awk '
 {a[substr($0,1,6)]++} 
 END {for (i in a) {if (a[i] > 1) printf "%s (%d)\n", i, a[i]}}
' file
111111 (2)
112114 (2)

関連情報