Webページで指しているすべての文書をダウンロードするためにwgetを使用したいと思います。
wgetを実行すると、Webページがリンクされているものではなく、Webページのみがダウンロードされます。
wget --content-disposition -v -S -r -nc -np -Kk -px --ignore-length \
--content-disposition --proxy-user "XYZ" --proxy-passwd "PASS" \
--no-check-certificate --load-cookies=cookies.txt --keep-session-cookies \
'https://www.website.com/link/live?func=lab&objId=174914395&objAction=browse&viewType=1'
Wgetは1ページのみダウンロードします。つまり、https://www.website.com/link/live?func=lab&objId=174914395&objAction=browse&viewType=1
ページには次のものが含まれます。
DataStringToVariables( '( {"currentPageNum":1,"totalPages":1,"totalCount":21,"dbTimeTaken":0,"timeTaken":1,"haveBigImages":"fa lse1","myrows":[{"dataId":"177020845","type2":"184","typeName":"Document","name":"Action_Mar_JKill%2Exls", etc.
xls、docs、pdfなどがたくさんありますが、wgetはそれをダウンロードしません。どのようにダウンロードできますか?
答え1
あなたの質問を理解したかどうかはわかりませんが、とにかく回答します。
URLから取得する内容は次のとおりです。JSONPしかし、JSONPはwgetではまったく処理されません。wget
マニュアルページに記載されているようにダウンローダだけが必要ですwget
。
GNU Wgetは、Webから非対話型ファイルをダウンロードするための無料のユーティリティです。
wget
受信データの解析はサポートされていません。データを解析するには、他のプログラミング言語を使用してここで受信したデータをインポートして処理します。
一種のシェルスクリプトを書いていると仮定すると、次のものを使用することもできます。仕上げデータを検索します。バラよりこの回答例えば。
JSON(P)を解析した後、拡張子は.JSON(P)データに記載されているファイルをダウンロードできますwget
。