通常のHTML以外のスクリプト形式で作成されたリンクを取得する

2024-5-14 • tag-icon

私は次のようにフルサイズの画像へのすべてのリンクを取得するためにwgetを使用してオンラインギャラリーのすべてのHTMLページをダウンロードしています。

wget --wait=3 --user-agent=Webtography --no-cookies --timestamping --recursive --level=2 --convert-links --no-parent --page-requirements --adjust-extension - -max-redirect=0 --exclude-directories=ブログhttp://example.com/jasper1123/a434784.html

ユーザーの特定のギャラリーのすべてのページを正常にダウンロードし、他の場所ではクロールしません。素晴らしいです。

どの画像もインポートしません。

私はwgetを使っていくつかのギャラリーに対してこれをしましたが、うまくいきました。 wgetがすべてをインポートし、ギャラリー内にアーカイブできるようにするには、いくつかの努力が必要でした（例：example.com/jasper1123）。

ダウンロード後、cat、sed、awkコマンドを使用して、イメージリンクのみを含むテキストファイルを作成しました。

これらのイメージリンクをバッチイメージダウンローダーにインポートし、ダウンロードをソートしたままにします。

サイトを利用しながら経験する問題は次のとおりです。

フルサイズの画像へのリンクは標準のHTMLではなく、次のスクリプトにあります。

イメージリンクスクリプト：

var e='.jpg',t='b',i='14712583',h='0.us.is.example.com',s='/',n='WIV',u='jasper1123 /3/example.com_'+i+n.charAt(2)+n.charAt(0)+n.charAt(1) document.getElementById('big_pic').src='http://'+t + h+s+u.charAt(0)+s+u+e;

画像への実際のリンク：

http://b0.us.is.example.com/j/jasper1123/3/example.com_14712583VWI.jpg

私の質問：

リンクスクリプトを実際のリンクに変換する方法はありますか？

バッチ処理でこれを行いたいです。ターミナルコマンドでは、すべてのリンクスクリプトをテキストファイルとして扱うことをお勧めします。

今考えている唯一の解決策は、テキストファイルをLibre Calcにインポートし、式を使用して変換することです。

どんなアイデアがありますか？

とても感謝しています。

関連情報