私は次のようにフルサイズの画像へのすべてのリンクを取得するためにwgetを使用してオンラインギャラリーのすべてのHTMLページをダウンロードしています。
wget --wait=3 --user-agent=Webtography --no-cookies --timestamping --recursive --level=2 --convert-links --no-parent --page-requirements --adjust-extension - -max-redirect=0 --exclude-directories=ブログhttp://example.com/jasper1123/a434784.html
ユーザーの特定のギャラリーのすべてのページを正常にダウンロードし、他の場所ではクロールしません。素晴らしいです。
どの画像もインポートしません。
私はwgetを使っていくつかのギャラリーに対してこれをしましたが、うまくいきました。 wgetがすべてをインポートし、ギャラリー内にアーカイブできるようにするには、いくつかの努力が必要でした(例:example.com/jasper1123)。
ダウンロード後、cat、sed、awkコマンドを使用して、イメージリンクのみを含むテキストファイルを作成しました。
これらのイメージリンクをバッチイメージダウンローダーにインポートし、ダウンロードをソートしたままにします。
サイトを利用しながら経験する問題は次のとおりです。
フルサイズの画像へのリンクは標準のHTMLではなく、次のスクリプトにあります。
イメージリンクスクリプト:
var e='.jpg',t='b',i='14712583',h='0.us.is.example.com',s='/',n='WIV',u='jasper1123 /3/example.com_'+i+n.charAt(2)+n.charAt(0)+n.charAt(1) document.getElementById('big_pic').src='http://'+t + h+s+u.charAt(0)+s+u+e;
画像への実際のリンク:
http://b0.us.is.example.com/j/jasper1123/3/example.com_14712583VWI.jpg
私の質問:
リンクスクリプトを実際のリンクに変換する方法はありますか?
バッチ処理でこれを行いたいです。ターミナルコマンドでは、すべてのリンクスクリプトをテキストファイルとして扱うことをお勧めします。
今考えている唯一の解決策は、テキストファイルをLibre Calcにインポートし、式を使用して変換することです。
どんなアイデアがありますか?
とても感謝しています。