オフセットのあるミラーサイト

オフセットのあるミラーサイト

私はここに答えています。https://webapps.stackexchange.com/questions/12311/how-to-download-all-english-books-from-gutenbergどちらが使用中かwget

wget特定のスタートオフセットからダウンロードしたいですhttp://www.gutenberg.org/robot/harvest?offset=100000filetypes[]=txt。以前のファイルをダウンロードしましたが、最初のページから始まるからです。

これをどのように避けることができますか?

答え1

あなたの問題はURLの次の部分にあるようです。

?offset=100000filetypes[]=txt

offsetこれは、2つのフィールド(および)を含むクエリ文字列ですfiletypes[]

クエリ文字列の名前と値のフィールドの対応は、アンパサンドで区切られています。この試み:

?offset=100000&filetypes[]=txt

フィールドを区別しない場合は、&サーバーに "100000filetypes[]=txt" オフセットが必要であることを通知します。これにより、サーバーはこれを無効なパラメーターと見なして拒否し、デフォルト値0を提供します。

関連情報