wgetダウンロードスクリプトを最適化する方法

Question 1

私の考えでは、あなたはできないと思います。最終的に再帰ダウンロードオプションを使用するには、デフォルトでwgetがhtmlファイルでのみ見つけることができる-rリンク（レベル別）を見つける必要があります。-lしたがって、wgetはより多くのhtmlファイルとmp3ファイルへのリンクを見つけるためにhtmlファイルをダウンロードして解析する必要があります。

すでに接続リストを作成している場合は、fgrep ".mp3"mp3ファイルのみを含む新しいリストを作成し、それをwgetのlink_source_fileとして使用するのはどうでしょうか？ wgetはhtmlファイルをダウンロードしないため、リンクが見つからないため削除することも、-r -l他のオプションもあります。ただ維持します-i（-Aリストにはすでにmp3ファイルのみが含まれていますが）。-xファイル階層がなくてもファイル階層を強制するには、このオプションを使用します-r。

つまり、サイトを再帰的に閲覧するには、wgetがhtmlファイルを保存しなくてもhtmlファイルをダウンロードして解析できるようにする必要があります。

別の方法は、wgetを使用して複数レベルのhtmlファイルをダウンロードすることです。その後、手動でこのファイルからリンクを取得し、見つかったすべてのmp3ファイルのリストを作成します（lynx、sed、およびfgrepがこれに役立つでしょう）。または、サイトがどのように構成されているかを知っている場合は、別の方法で目的のファイルのリストを生成します（たとえば、シェルスクリプトを使用して次の行を含むリストを生成します。

http://www.sagar.com/1/song.mp3
http://www.sagar.com/2/song.mp3
http://www.sagar.com/3/song.mp3
http://www.sagar.com/100/song.mp3

Answer

私の考えでは、あなたはできないと思います。最終的に再帰ダウンロードオプションを使用するには、デフォルトでwgetがhtmlファイルでのみ見つけることができる-rリンク（レベル別）を見つける必要があります。-lしたがって、wgetはより多くのhtmlファイルとmp3ファイルへのリンクを見つけるためにhtmlファイルをダウンロードして解析する必要があります。

すでに接続リストを作成している場合は、fgrep ".mp3"mp3ファイルのみを含む新しいリストを作成し、それをwgetのlink_source_fileとして使用するのはどうでしょうか？ wgetはhtmlファイルをダウンロードしないため、リンクが見つからないため削除することも、-r -l他のオプションもあります。ただ維持します-i（-Aリストにはすでにmp3ファイルのみが含まれていますが）。-xファイル階層がなくてもファイル階層を強制するには、このオプションを使用します-r。

つまり、サイトを再帰的に閲覧するには、wgetがhtmlファイルを保存しなくてもhtmlファイルをダウンロードして解析できるようにする必要があります。

別の方法は、wgetを使用して複数レベルのhtmlファイルをダウンロードすることです。その後、手動でこのファイルからリンクを取得し、見つかったすべてのmp3ファイルのリストを作成します（lynx、sed、およびfgrepがこれに役立つでしょう）。または、サイトがどのように構成されているかを知っている場合は、別の方法で目的のファイルのリストを生成します（たとえば、シェルスクリプトを使用して次の行を含むリストを生成します。

http://www.sagar.com/1/song.mp3
http://www.sagar.com/2/song.mp3
http://www.sagar.com/3/song.mp3
http://www.sagar.com/100/song.mp3

Question 2

grepを使用した手動方法。

空のディレクトリから始めて、リスト内のすべてのHTMLファイルを非再帰的にダウンロードします。--convert-linksMP3ファイルへの関連リンクをフルリンクに変換するオプションが追加されました。したがって、1つ以上のMP3ファイルへのリンクを含む上記に公開されたものと同じファイルしかありません。

これにより、次のことができます。

(for f in *
 do
     grep -P --only-matching '(?<=href=")[^ "]*\.mp3' foo.html "$f"
     # rm "$f"
 done) | xargs wget

ダウンロードしたmp3以外のファイルを削除するには、古いファイルを省略してください#。rm

たとえば、リファラーが存在しないか間違っている場合、ホストがダウンロードを拒否しても失敗する可能性があります。

Answer