Wgetを使用してウェブサイトをクロールし、URLパターンでフィルタリングする

Wgetを使用してウェブサイトをクロールし、URLパターンでフィルタリングする

ウェブサイトをスクラップしようとしていますが、wgetはすべてのリンク(同じドメイン内)を再帰的にフォローしたいが、そのURLが特定のパターンと一致する場合にのみページをダウンロードします。

私は次のことを試しました:

wget https://www.abc.def --no-clobber -r -e robots=off -U mozilla --domains abc.def --html-extension --accept-regex 'https://www.abc.def/g/h/.*'

'を含むファイルのみをダウンロードします。https://www.abc.def/g/h/。 * 'パターン。しかし、他のリンクをまったく追いかけようとしません。

どんなアイデアがありますか?

よろしくお願いします!

関連情報