重複した画像を同時にダウンロードする方法は？

Question 1

私の考えでは、あなたの問題は--page-requisites。重複したアイテムを識別して再ダウンロードするのを防ぐと思います。これは一般的にあなたが望むものです。次のように各URLに対してwgetを1回呼び出し、毎回別のフォルダにダウンロードすることでこの問題を解決できます。

#!/bin/bash
let i=0
while IFS=$'\n' read url; do 
  let i++; 
  wget -nv -P $i --page-requisites "$url"; 
done < urls.txt

ただし、各ファイルに含まれる画像は1つだけ必要です。これにより、トリックを実行できます。

wget -i urls.txt -q -O - | ...extract image URLs... | wget -nv -i -

HTMLからURLを抽出することは、逐語的なURLを見つけるのと同じくらい簡単です。

grep -Eo 'http://host/abc/[^"]+.jpg'

またはもう少し努力が必要です。 900個のURLが同様のHTMLを指している場合は問題になりません。とにかく、名前が競合するファイルに番号を付けます。

Answer

私の考えでは、あなたの問題は--page-requisites。重複したアイテムを識別して再ダウンロードするのを防ぐと思います。これは一般的にあなたが望むものです。次のように各URLに対してwgetを1回呼び出し、毎回別のフォルダにダウンロードすることでこの問題を解決できます。

#!/bin/bash
let i=0
while IFS=$'\n' read url; do 
  let i++; 
  wget -nv -P $i --page-requisites "$url"; 
done < urls.txt

ただし、各ファイルに含まれる画像は1つだけ必要です。これにより、トリックを実行できます。

wget -i urls.txt -q -O - | ...extract image URLs... | wget -nv -i -

HTMLからURLを抽出することは、逐語的なURLを見つけるのと同じくらい簡単です。

grep -Eo 'http://host/abc/[^"]+.jpg'

またはもう少し努力が必要です。 900個のURLが同様のHTMLを指している場合は問題になりません。とにかく、名前が競合するファイルに番号を付けます。

Question 2

重複した項目を保存しない理由は、--page-requisites（-p）オプションを使用しているためです。コマンドに--no-directories（）オプションを追加してみてください。-nd

マンページで（強調は私が追加しました）：

Wgetを実行するときいいえ-N、-nc、-r、または-血、同じディレクトリに同じファイルをダウンロードすると、ファイルのソースはfile.1という2番目のコピーと共に保持されます。ファイルを再ダウンロードすると、3 番目のコピーの名前は file.2 と指定されます。（これは -r または -p が適用された場合でも -nd の動作です。)

Answer

重複した項目を保存しない理由は、--page-requisites（-p）オプションを使用しているためです。コマンドに--no-directories（）オプションを追加してみてください。-nd

マンページで（強調は私が追加しました）：

Wgetを実行するときいいえ-N、-nc、-r、または-血、同じディレクトリに同じファイルをダウンロードすると、ファイルのソースはfile.1という2番目のコピーと共に保持されます。ファイルを再ダウンロードすると、3 番目のコピーの名前は file.2 と指定されます。（これは -r または -p が適用された場合でも -nd の動作です。)

Question 3

wgetは重複を無視せず、上書きされる可能性が高いです。 wgetには多くのオプションがありますが、すべてはわかりませんが、重複したファイル名を区別するためにオプションでサフィックスを追加するオプションがあるとは思いません。この機能を直接構築する必要があります。

例えば

#  mkdir /myarchivedir
#  
#  mkdir /tmp/mytempdir
#  cd /tmp/mytempdir
#  
#  i=1
#  while [ $i -le 900 ] 
#  do
#  wget http://mysite.com/somefile
#  file=$(ls)
#  mv $file /myarchivedir/${i}.${file}
#  (( i=$i+1 ))
#  done

ご覧のとおり、$ file変数は以前の他の変数と同じでも毎回値を変更するため、ファイルを/ myarchivedirに移動しても重複する名前のイメージを上書きしません。

Answer

wgetは重複を無視せず、上書きされる可能性が高いです。 wgetには多くのオプションがありますが、すべてはわかりませんが、重複したファイル名を区別するためにオプションでサフィックスを追加するオプションがあるとは思いません。この機能を直接構築する必要があります。

例えば

#  mkdir /myarchivedir
#  
#  mkdir /tmp/mytempdir
#  cd /tmp/mytempdir
#  
#  i=1
#  while [ $i -le 900 ] 
#  do
#  wget http://mysite.com/somefile
#  file=$(ls)
#  mv $file /myarchivedir/${i}.${file}
#  (( i=$i+1 ))
#  done

ご覧のとおり、$ file変数は以前の他の変数と同じでも毎回値を変更するため、ファイルを/ myarchivedirに移動しても重複する名前のイメージを上書きしません。

重複した画像を同時にダウンロードする方法は？

答え1

答え2

答え3

関連情報