cURLを使用してウェブサイトのすべてのパスを取得する方法

cURLを使用してウェブサイトのすべてのパスを取得する方法

curl //website// 私にソースコードを提供します。しかし、そこでどのように各固有パスをフィルタリングして数を取得できますか?

質問:

コンピュータでcURLを使用して「https://www.inlanefreight.com」ウェブサイトのソースコードを取得し、そのドメインへのすべての一意のパスをフィルタリングします。これらのパスの数を回答として送信してください。

質問では、「UNIQUE PATHS」が何を意味するのかわかりませんが、その意味は実行から得られたものと似ていると仮定します。 $wget -p


この方法を使用しましたが、何とか動作しました

wget --spider --recursive https://www.inlanefreight.com

が表示されます

Found 10 broken links.

https://www.inlanefreight.com/wp-content/themes/ben_theme/fonts/glyphicons-halflings-regular.svg
https://www.inlanefreight.com/wp-content/themes/ben_theme/fonts/glyphicons-halflings-regular.eot
https://www.inlanefreight.com/wp-content/themes/ben_theme/images/testimonial-back.jpg
https://www.inlanefreight.com/wp-content/themes/ben_theme/css/grabbing.png
https://www.inlanefreight.com/wp-content/themes/ben_theme/fonts/glyphicons-halflings-regular.woff
https://www.inlanefreight.com/wp-content/themes/ben_theme/fonts/glyphicons-halflings-regular.woff2
https://www.inlanefreight.com/wp-content/themes/ben_theme/images/subscriber-back.jpg
https://www.inlanefreight.com/wp-content/themes/ben_theme/fonts/glyphicons-halflings-regular.eot?
https://www.inlanefreight.com/wp-content/themes/ben_theme/images/fun-back.jpg
https://www.inlanefreight.com/wp-content/themes/ben_theme/fonts/glyphicons-halflings-regular.ttf

FINISHED --2020-12-06 05:34:58--
Total wall clock time: 2.5s
Downloaded: 23 files, 794K in 0.1s (5.36 MB/s)

下部に。 23のダウンロードと10の壊れたリンクを合計すると、私が得る唯一のパスである33が正解であると仮定します。

答え1

この方法を使用しましたが、何とか動作しました

$ wget --spider --recursive https://www.inlanefreight.com

これは表示されます -

Found 10 broken links.

https://www.inlanefreight.com/wp-content/themes/ben_theme/fonts/glyphicons-halflings-regular.svg
https://www.inlanefreight.com/wp-content/themes/ben_theme/fonts/glyphicons-halflings-regular.eot
https://www.inlanefreight.com/wp-content/themes/ben_theme/images/testimonial-back.jpg
https://www.inlanefreight.com/wp-content/themes/ben_theme/css/grabbing.png
https://www.inlanefreight.com/wp-content/themes/ben_theme/fonts/glyphicons-halflings-regular.woff
https://www.inlanefreight.com/wp-content/themes/ben_theme/fonts/glyphicons-halflings-regular.woff2
https://www.inlanefreight.com/wp-content/themes/ben_theme/images/subscriber-back.jpg
https://www.inlanefreight.com/wp-content/themes/ben_theme/fonts/glyphicons-halflings-regular.eot?
https://www.inlanefreight.com/wp-content/themes/ben_theme/images/fun-back.jpg
https://www.inlanefreight.com/wp-content/themes/ben_theme/fonts/glyphicons-halflings-regular.ttf

FINISHED --2020-12-06 05:34:58--
Total wall clock time: 2.5s
Downloaded: 23 files, 794K in 0.1s (5.36 MB/s)

-下部に。それでは、23のダウンロードと10の壊れたリンクが追加され、33に達する唯一のパスが正解であるとしましょう。

答え2

これが私が思いついたものです:

 curl https://www.inlanefreight.com/ | grep -Po 'https://www.inlanefreight.com/\K[^"\x27]+' | sort -u  | wc -l

正規表現を使って解決したいのかわかりません。

答え3

cURLとgrep、tr、sort、cut、wc、追加ツールuniqなどのフィルタリングツールを使用してください。 私の結果は正確ではありません(34)。 33は正しいです。まだどのルートが重複しているかわからない。:(

curl https://www.inlanefreight.com --insecure > ilf

cat ilf | grep "https://www.inlanefreight.com" > ilf.1

cat ilf.1 | tr " " "\n" | sort | grep "inlanefreight.com" | cut -d'"' -f2 | sort | cut -d"'" -f2 | sort | uniq -c > ilf.2

cat ilf.2 | wc -l

$> 34

私はこれが重複したソースだと思います(この行の場合はcat ilf.2)。

<snip>
1 https://www.inlanefreight.com/index.php/wp-json/oembed/1.0/embed?url=https%3A%2F%2Fwww.inlanefreight.com%2F
1 https://www.inlanefreight.com/index.php/wp-json/oembed/1.0/embed?url=https%3A%2F%2Fwww.inlanefreight.com%2F&#038;format=xml
<snip>

「?」でこの問題を解決してください。

cat ilf.1 | tr " " "\n" | sort | grep "inlanefreight.com" | cut -d'"' -f2 | sort | cut -d"'" -f2 | sort | cut -d"?" -f1 | uniq -c | wc -l
$> 33

正解は33です。

答え4

TL;DR;: できません。

wgetのマンページから:

「-pオプションを使用すると、Wgetは特定のHTMLページを正しく表示するために必要なすべてのファイルをダウンロードします。これには、インラインイメージ、サウンド、参照スタイルシートなどが含まれます。」

これが特徴ですwgetcurl単一のhttpコマンド(簡体)を実行するソフトウェア/ライブラリです。wgetウェブサイト全体や必要なアイテムをダウンロードするなど、いくつかの機能があります。説明するコンテンツ。この機能はWeb 1.0時代には機能していましたが、Webサイトからwgethttps://www.inlanefreight.com次のテーマを備えたWordPressのウェブサイトです。https://themeansar.com/だから、そこで購入し、解釈し、スクリプトを作成し、正しく実行されることを願っています。

しかし、さあ、https://www.inlanefreight.com6ページとPDFファイルがあります。クリックすると数えることができます。これはWordPressを見つけるのに必要なものよりも高速です。

関連情報