ウェブサイトのページで利用可能なすべての画像を取得する方法。
ここでは、WebページのすべてのHTMLコードを取得するためにカールを使用します。
curl http://www.xyztest.com
このWebページで使用されている画像のリストをどのように取得できますか?
答え1
例を示すために使用できますwget
。すべての画像を含むリストを取得し(必要な場合)、次からすべての画像をダウンロードしてみましょう。このウェブサイト
1)wgetを使用してインデックスページをダウンロードします。
wget -k https://www.pexels.com/
k
ローカルリンクをグローバルリンクに変換するオプション(非常に重要)
2) ここで必要な情報を掘り下げてみましょう。まず、スローをフィルタリングしてタグ付きの行のみをgrep img
取得します<img>
。 2番目のgrepは正規表現を使用してリンクアドレスを取得します。文字sed
の後ろのリンクからパラメータを切り取ります?
。最後に、リンクをlink.txtに保存してください。
cat index.html | grep img | grep -Po 'src="\K.*?(?=")' | sed 's/\?.*//' > links.txt
3)今すぐすべての画像を簡単にダウンロードできます
wget -i links.txt
パイプセットを使用してリンクをダウンロードして処理できますが、curl
必要に応じて以下を使用します。
curl https://www.pexels.com/ | grep img | grep -o src="\"http.*" | grep -o "http.*\"" | sed 's/\?.*//' > links.txt