書式のないHTMLファイルがあります。フォームのURLを抽出したいです。https://sitename.com/* / endingとそのURLのみ。
これを行う最良の方法は何ですか?
この質問は重複しません。別の質問は、特定のDIVの内容を抽出する方法を尋ねます。特定の形式に一致するURLのリストを抽出する方法を尋ねます。
答え1
簡単なgrepでこれを行うことができます。
grep -o "https://sitename.com/.+/ending" somefile.html
(注:現在私の前にこれをテストする* nixマシンはありません。)
編集:私のLinuxボックスを起動して動作することを確認しました。
grep -wEo "https://sitename\.com/[^/]+/ending" somefile.html
Aは.+
欲が多く、あまりにも多くを捕獲するだろう。否定アサーションを使用すると、サブディレクトリの末尾を正しく見つけることができます。などのネストされたサブディレクトリは見つかりませんhttps://sitename.com/sub/directory/ending
。