HTMLファイルから特定のURLを抽出する方法

Question

簡単なgrepでこれを行うことができます。

grep -o "https://sitename.com/.+/ending" somefile.html

（注：現在私の前にこれをテストする* nixマシンはありません。）

編集：私のLinuxボックスを起動して動作することを確認しました。

grep -wEo "https://sitename\.com/[^/]+/ending" somefile.html

Aは.+欲が多く、あまりにも多くを捕獲するだろう。否定アサーションを使用すると、サブディレクトリの末尾を正しく見つけることができます。などのネストされたサブディレクトリは見つかりませんhttps://sitename.com/sub/directory/ending。

Answer 1

簡単なgrepでこれを行うことができます。

grep -o "https://sitename.com/.+/ending" somefile.html

（注：現在私の前にこれをテストする* nixマシンはありません。）

編集：私のLinuxボックスを起動して動作することを確認しました。

grep -wEo "https://sitename\.com/[^/]+/ending" somefile.html

Aは.+欲が多く、あまりにも多くを捕獲するだろう。否定アサーションを使用すると、サブディレクトリの末尾を正しく見つけることができます。などのネストされたサブディレクトリは見つかりませんhttps://sitename.com/sub/directory/ending。

関連情報