
歌詞サイトをスクレイピングしようとしているのにかなり良いスクリプトを作成しました。 (最初だと遅いですが)
#!/bin/bash
touch visited
touch tobe
>visited
>tobe
url=$(echo http://www.azlyrics.com/)
UA=$(echo "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_3) AppleWebKit/537.75.14 (KHTML, like Gecko) Version/7.0.3 Safari/7046A194A")
wget -q $url --user-agent=$(echo UA) -O index.html
cat index.html | grep \"http.*.html\" -o | cut -f2 -d\" >> temp_tobe
for i in `cat temp_tobe`;
do
basename $(echo $i) >> tobe
done
rm temp_tobe
while true;
do
for i in `cat tobe`;
do
echo getting $url -> $i
wget -q $url$i --user-agent=$(echo UA)
echo $i >> visited
#PUT THE NEW LINK TO TOBE
cat $(basename $(echo $url$i)) | grep \".*.html\" -o | cut -f2 -d\" >> tobe
#SORT VISITED
cat visited | sort | uniq > tmp && mv tmp visited
#SORT TOBE
cat tobe | sort | uniq > tmp && mv tmp tobe
#REMOVE THE INTERSECTION FROM TOBE
comm -23 tobe visited > tmp && mv tmp tobe
done
done
ところで、ブラウザでそのサイトにアクセスすらできなくてブラックリストに上がったようです。 VPNを起動しましたが、まだサイトにアクセスできません(これはクレイジーです!)The connection was reset
。
IPを継続的に変更する技術(他のオンラインユーザーに便乗)を聞いたことがあります。
これを達成する方法(好ましくはこれが可能です)またはサイトにアクセスし続ける他の方法を教えてください。
必要に応じて説明を依頼してください。
答え1
私はこれを行う方法を提案できます。おそらく最善ではないかもしれませんが、作業は完了です。スクリプトでtor
呼び出しtorify
または古いツールを使用します。torsocks
wget
torify wget -q $url --user-agent=$(echo UA) -O index.html
このコマンドはサーバーに要求を送信しますが、最初にtor
サーバーをダウンロードしてからランチを食べてから、必要な作業を実行できる空き容量を埋める必要がありますtorify
。
たとえば、CentOSまたはUbunutuにインストールするには、次の手順を実行します。
yum install tor
apt-get install tor
デフォルトではインストールされますtorify
。