私はここに答えています。https://webapps.stackexchange.com/questions/12311/how-to-download-all-english-books-from-gutenbergどちらが使用中かwget
wget
特定のスタートオフセットからダウンロードしたいですhttp://www.gutenberg.org/robot/harvest?offset=100000filetypes[]=txt
。以前のファイルをダウンロードしましたが、最初のページから始まるからです。
これをどのように避けることができますか?
答え1
あなたの問題はURLの次の部分にあるようです。
?offset=100000filetypes[]=txt
offset
これは、2つのフィールド(および)を含むクエリ文字列ですfiletypes[]
。
クエリ文字列の名前と値のフィールドの対応は、アンパサンドで区切られています。この試み:
?offset=100000&filetypes[]=txt
フィールドを区別しない場合は、&
サーバーに "100000filetypes[]=txt" オフセットが必要であることを通知します。これにより、サーバーはこれを無効なパラメーターと見なして拒否し、デフォルト値0を提供します。