アーカイブされたウェブサイトからすべてのリンク（ダウンロードを除く）を抽出して印刷します。

Question 1

ミラーサイトを使用することもできますがwget、何もダウンロードしないようにWebスパイダーとして機能するように指定することもできます。

したがって、これは可能ですが、ログを保存する必要があります。

wget --no-directories --mirror --spider "$url" 2>&1 | tee "$log"

私の場合、ログには次のようなものが見つかりました。

Spider mode enabled. Check if remote file exists.
--2017-12-19 07:19:23--  URL

grepその後、URLを検索するために使用します。

grep -P -o -e '(?<=^--....-..-.. ..:..:..--  )(.*)' "$log"

例:

$ wget --no-directories --mirror --spider https://utw.me/file/scripts/ 2>&1 | tee log.txt
...
$ grep -P -o -e '(?<=^--....-..-.. ..:..:..--  )(.*)' log.txt
...
https://utw.me/file/scripts/Fate%20Zero/%5BUTW%5D%20Fate%20Zero%20-%2001.ass
https://utw.me/file/scripts/Fate%20Zero/%5BUTW%5D%20Fate%20Zero%20-%2002.ass
https://utw.me/file/scripts/Fate%20Zero/%5BUTW%5D%20Fate%20Zero%20-%2003.ass
https://utw.me/file/scripts/Fate%20Zero/%5BUTW%5D%20Fate%20Zero%20-%2004.ass
https://utw.me/file/scripts/Fate%20Zero/%5BUTW%5D%20Fate%20Zero%20-%2005.ass
...

Answer

ミラーサイトを使用することもできますがwget、何もダウンロードしないようにWebスパイダーとして機能するように指定することもできます。

したがって、これは可能ですが、ログを保存する必要があります。

wget --no-directories --mirror --spider "$url" 2>&1 | tee "$log"

私の場合、ログには次のようなものが見つかりました。

Spider mode enabled. Check if remote file exists.
--2017-12-19 07:19:23--  URL

grepその後、URLを検索するために使用します。

grep -P -o -e '(?<=^--....-..-.. ..:..:..--  )(.*)' "$log"

例:

$ wget --no-directories --mirror --spider https://utw.me/file/scripts/ 2>&1 | tee log.txt
...
$ grep -P -o -e '(?<=^--....-..-.. ..:..:..--  )(.*)' log.txt
...
https://utw.me/file/scripts/Fate%20Zero/%5BUTW%5D%20Fate%20Zero%20-%2001.ass
https://utw.me/file/scripts/Fate%20Zero/%5BUTW%5D%20Fate%20Zero%20-%2002.ass
https://utw.me/file/scripts/Fate%20Zero/%5BUTW%5D%20Fate%20Zero%20-%2003.ass
https://utw.me/file/scripts/Fate%20Zero/%5BUTW%5D%20Fate%20Zero%20-%2004.ass
https://utw.me/file/scripts/Fate%20Zero/%5BUTW%5D%20Fate%20Zero%20-%2005.ass
...

Question 2

私の考えでは、あなたが検索に閉じ込められていると思います。https://www.asite.com/Books/（からhttps://www.asite.com/）とhttps://www.asite.com/（サブディレクトリの1つから）。

wget、さまざまな条件でアイテムをダウン/インポートすることをcurl選択lynxできます（初期サイトを離れるのではなく、最大深度はX、ftpを使用するなど）。

PS.:

完全なコードを表示していません。
引数を使用して呼び出しますprint_directory_itemsが、インポートされません（ローカルと呼ばれます$1）。
$( )バックティックより良い

Answer

私の考えでは、あなたが検索に閉じ込められていると思います。https://www.asite.com/Books/（からhttps://www.asite.com/）とhttps://www.asite.com/（サブディレクトリの1つから）。

wget、さまざまな条件でアイテムをダウン/インポートすることをcurl選択lynxできます（初期サイトを離れるのではなく、最大深度はX、ftpを使用するなど）。

PS.:

完全なコードを表示していません。
引数を使用して呼び出しますprint_directory_itemsが、インポートされません（ローカルと呼ばれます$1）。
$( )バックティックより良い

アーカイブされたウェブサイトからすべてのリンク（ダウンロードを除く）を抽出して印刷します。

答え1

答え2

関連情報