ウェブサイトをスクラップしようとしていますが、wgetはすべてのリンク(同じドメイン内)を再帰的にフォローしたいが、そのURLが特定のパターンと一致する場合にのみページをダウンロードします。
私は次のことを試しました:
wget https://www.abc.def --no-clobber -r -e robots=off -U mozilla --domains abc.def --html-extension --accept-regex 'https://www.abc.def/g/h/.*'
'を含むファイルのみをダウンロードします。https://www.abc.def/g/h/。 * 'パターン。しかし、他のリンクをまったく追いかけようとしません。
どんなアイデアがありますか?
よろしくお願いします!