Webサイトから情報を収集してテキストファイルに出力するスクリプトがあります。サイトをダウンロードし、grepを使用して情報を抽出します。必要に応じて出力するには、書式を使用する必要があります。
#!/usr/bin/env bash
echo Enter an url
read url
mkdir site
cd site
wget -r -l1 --follow-tags=a --no-check-certificate $url
grep -r -E -o -H "\b[a-zA-Z0-9.-]+@[a-zA-Z0-9.-]+\.[a-zA-Z0-9.-]+\b" * | sort -u >> ~/email.txt
grep -r -E -o -H "\(?[[:digit:]]{5}\)?[[:space:]]?[[:digit:]]{6}" * | sort -u >> ~/phone.txt
cd ..
rm -rf site
これを実行すると、次のような結果が表示されます。
www.example.com/en/contact:91112223334
...
www.example.com/en/contact:[email protected]
テーブル形式にしたいです。
メール.txt
URL | Eメール |
---|---|
www.example.com | [Eメール保護] |
電話.txt
URL | 電話 |
---|---|
www.example.com | 0111222 33 34 |
表に示すように電話番号の形式を指定する必要があります。 awkを試してみましたが、成功しませんでした。