ここにリンクされているページにある数十のPDFファイルをダウンロードしようとしています。
http://machiniknittingetc.com/passap.html?limit=all
各PDFはで終わるURLとして参照されます/downloadable/download/sample/sample_id/[some three digit number]/
。
私はこれを試しました:
wget -r -l2 -A.pdf http://machineknittingetc.com/passap.html?limit=all
wget -r -l2 -np http://machineknittingetc.com/passap.html?limit=all -A "*.pdf"
wget -r -l2 -np http://machineknittingetc.com/passap.html?limit=all -A "*.###"
PDFをインポートしません。
ファイル階層などのURLにアクセスできるように、インデックスが作成されていないサーバーに関連している可能性はありますか?動作させる方法はありますか?
答え1
これはあなたに効果がありますか?
#!/bin/bash
for i in {000..175}
do
wget http://machineknittingetc.com/downloadable/download/sample/sample_id/$i
done
答え2
@rajaganesh87ディレクトリリンク番号を推測していますが、コードは各基本リンクに必要な実際のリンクとは機能しません。http://machiniknittingetc.com/passap.html?limit=all および関連(.pdf)ファイル。
問題は、あなたがブロックされたということです
Robot.txtファイル
そして点(.)を使います。
-A .pdf
以下でテストしたコードを試してみてください。
wget -np -nd -r -l2 -A pdf -e robots=off http://machineknittingetc.com/passap.html?limit=all