同じドメインのURLを含む200万行の.txtファイルがあり、このリストから一意のサブドメインのみを抽出する必要があります...問題は、出力の下のコマンドを使用すると完全な一意のURLが返されることです。重複することなく、完全なURLの代わりに一意のサブドメインを抽出する必要があります。どのようなヒントがありますか?ありがとう<3
cat all-urls.txt | grep domain.com.br | uniq -u
私が必要とする出力は次のとおりです。
https://sub1.domain.com
https://sub2.domain.com
https://sub3.domain.com
https://sub4.domain.com
https://sub5.domain.com
(...)
答え1
cut -d/ -f3 all-urls.txt | sort -u
それでは無駄に使用しませんでしたcat
。