wgetを使ってGutenbergプロジェクトのすべての本をダウンロードしたいと思います。 epub形式で受け取りたいです。リストへのリンクは次のとおりです。 http://www.gutenberg.org/robot/harvest?filetypes[]=epub.images&langs[]=fr しかし、私が実行したとき:
wget -H -w 2 -m "http://www.gutenberg.org/robot/harvest?filetypes[]=epub.images&langs[]=fr"
ページにリンクされているすべてのファイルではなくHTMLページをダウンロードします。これが十分に明確であることを願っています。この質問からインスピレーションを得ました。https://webapps.stackexchange.com/questions/12311/how-to-download-all-english-books-from-gutenberg
答え1
あなたはすべてのことを正しくしました。グーテンベルクのサーバーがダウンしました(一時的にお願いします)。
何が起こっているのか:aleph.gutenberg.org/cache/以下のEPUBファイルへのリンクを取得するページがありますが、aleph.gutenberg.orgはロボットが/ cacheにアクセスすることを許可しません。これがWgetがすべてのEPUBファイルをスキップする理由です。
私は問題がすぐに解決されることを願って、Project Gutenbergに電子メールを書きました。彼らの連絡先ページでは、2日以内に答えを約束しました。数日後にもう一度お試しください。 (またはrobots.txtを修正する方法を見つけてください。ほとんどの人が悪い目的で悪用しているので、ここに投稿したくありません。)
11月29日更新:問題が解決しました。