wget
次のコマンドを使用してWebサイト全体をダウンロードしようとしています。
wget --recursive --no-clobber --page-requisites --convert-links --domains example.com --no-parent http://www.example.com/en/
うまく動作しますが、問題があります。名前には、次の漢字を含むいくつかのファイル(主に画像)があります。
ダウンロード後、ファイルは次の名前で保存されました。
??%96KV3.jpg
これがHTMLページで解決される方法であるため、404エラーが発生します。
�%2596KV3.jpg
これらの不一致を防ぐ方法を知りたいです。 !
答え1
私は今日もこれで苦労しています。
私の場合、ドイツ語の文字に問題がありました。ä,ö,ü
すべての言語設定をUTF-8
。
ここでチュートリアルを見ることができます:
https://perlgeek.de/en/article/set-up-a-clean-utf8-environment