再帰を使用してウェブサイトをダウンロードしたいと思いますwget
。 WebサイトにはPHPスクリプトによって提供される記事が含まれています。 www.example.com/article.php?id=1021&ch=5 - これが私が望むものです。すべての章は別々の記事です。
残念ながら、このサイトにはレビューもたくさん含まれています。コメントはPHPスクリプトでも提供されます。 www.example.com/comment.php?id=1021&no=144 - 私は間違いなくいいえ思う。
基本的に私はすべてが欲しいとは別にのコメント。問題は、記事、章、レビューへのリンクが記事や章のリスト全体に散在しているため、これを防ぐために再帰レベルを「微調整」する方法がなく、レベルを平準化して手動で並べ替えることができないことです。 、時間と労力が多すぎる。
どちらもPHPスクリプトなので、wgetの-Aまたは-Rオプションを使用して特定のサフィックスを持つファイルを許可または拒否すると機能しません。そうですか?再帰的にダウンロードするときに1つのPHPスクリプトを除き、他のスクリプトを除外するより正確な方法はありますか?
答え1
以下は、あなたが探しているものに関する洞察を提供します。http://www.gnu.org/software/wget/manual/html_node/Directory_002dBased-Limits.html
--exclude /comment.php
除外ページのすべてのバリアントが利用可能である必要があります。comment.php