wget再帰ヘルプ

wget再帰ヘルプ

次のコンテンツを含むWebサイトのディレクトリからすべてのPDFファイルをダウンロードしようとしています。

wget -r -l1 --no-parent -A.pdf http://www.eduplace.com/math/mw/practice/1/practice/

ただし、引き続き「エラー404:見つかりません」と表示されます。これは非常に簡単な使い方のようですが、次に何を試すべきかわかりません。

答え1

wget -rは、指定されたURLからすべてのPDFリンクにアクセスできる場合にのみ機能します。

あなたができることは、特定のサイトのHTMLソースコードを「見る」ことです。http://eduplace.com/math/mw/practice/1/lp_1_u1sel.htmlすべてのPDFリンクがどのように構成されているかを確認してください。次に、それを自動化する小さなスクリプトを次のように作成します。

wget http://eduplace.com/math/mw/practice/1/lp_1_u1sel.html
CHAPT=$(grep chapter  lp_1_u1sel.html | sed 's/.*value="\([^"]*\)".*/\1/')
FEAT=$(grep feature  lp_1_u1sel.html | sed 's/.*value="\([^"]*\)".*/\1/')
for c in $CHAPT; do
    for f in $FEAT; do
        wget -O mw-practice-1-$c-$f.pdf https://www.eduplace.com/math/mw/practice/1/$c/$f.pdf
    done
done

関連情報