次のwgetコマンドを使用していますが、1つを除いて必要なファイルをダウンロードしてください。
wget -U "Mozilla/5.0" --wait=3 --load-cookies cookies.txt --timestamping --recursive --level=2 --convert-links --no-parent --page-requisites --adjust-extension --max-redirect=0 --exclude-directories=blog --reject "*per_page=18.html" --reject "*per_page=36.html" (url here)
次のファイルをダウンロードしたいと思います。
a1546997.html
しかし、次のファイルをダウンロードしたくありません。
a1546997.html?pwd=&per_page=36.html
最後に追加のコンテンツを含むHTMLページのダウンロードを拒否する方法がわからないようです。
主な問題は、wgetが2番目のタイプのリンクで再試行され、タイムアウトするのをやめることです。リンクはどこにも行かないからです。その後、wgetクライアントは禁止されます。
どんな提案がありますか?
答え1
wgetの--reject-regexスイッチを試してください。おそらく次のようにすることができます:
wget --recursive --no-parent --reject-regex '[^?]' url
答え2
私は実用的なアプローチを取ります。
wget ....
rename 's/\.html\?.*/.html/' *.html*
これはPerlの名前変更コマンドです。