固有パスのオンライン統計

Question

最初に入力をソートするのが最も効率的です。

awk one-linerを使用してこれを行うことができます。

awk '{++seen[$0]} END {for (line in count) printf "%7d %s\n", count[line], line}'

メモリとCPU時間の面でどちらがより効率的かは、データと実装によって異なります。sort理論的には追加のタスクを実行するため効率が悪くなりますが、一方で1つのタスクだけを実行してうまくいきますが、awkは汎用ツールです。重複するエントリが多い場合、awkはメモリを使い果たし、速度が速くなる可能性があります。一方、多くのソート実装はRAMに収まらない巨大なデータセットを処理する可能性があり、awkはクラッシュします。

Answer 1

最初に入力をソートするのが最も効率的です。

awk one-linerを使用してこれを行うことができます。

awk '{++seen[$0]} END {for (line in count) printf "%7d %s\n", count[line], line}'

メモリとCPU時間の面でどちらがより効率的かは、データと実装によって異なります。sort理論的には追加のタスクを実行するため効率が悪くなりますが、一方で1つのタスクだけを実行してうまくいきますが、awkは汎用ツールです。重複するエントリが多い場合、awkはメモリを使い果たし、速度が速くなる可能性があります。一方、多くのソート実装はRAMに収まらない巨大なデータセットを処理する可能性があり、awkはクラッシュします。

固有パスのオンライン統計

答え1

関連情報