wget - HTMLページ文字列のダウンロードを拒否する方法

2024-5-14 • tag-icon

次のwgetコマンドを使用していますが、1つを除いて必要なファイルをダウンロードしてください。

wget -U "Mozilla/5.0" --wait=3 --load-cookies cookies.txt --timestamping --recursive --level=2 --convert-links --no-parent --page-requisites --adjust-extension --max-redirect=0 --exclude-directories=blog --reject "*per_page=18.html" --reject "*per_page=36.html" (url here)

次のファイルをダウンロードしたいと思います。

a1546997.html

しかし、次のファイルをダウンロードしたくありません。

a1546997.html?pwd=&per_page=36.html

最後に追加のコンテンツを含むHTMLページのダウンロードを拒否する方法がわからないようです。

主な問題は、wgetが2番目のタイプのリンクで再試行され、タイムアウトするのをやめることです。リンクはどこにも行かないからです。その後、wgetクライアントは禁止されます。

どんな提案がありますか？

答え1

wgetの--reject-regexスイッチを試してください。おそらく次のようにすることができます：

wget --recursive --no-parent --reject-regex '[^?]' url

答え2

私は実用的なアプローチを取ります。

wget ....
rename 's/\.html\?.*/.html/' *.html*

これはPerlの名前変更コマンドです。

答え1

答え2

関連情報