htmlタグからデータを抽出するためのbashスクリプトを作成していますが、別のスレッドでこのコマンドを見つけましたが、うまくいきますgrep -o '<tr>.*</tr>' HTMLFILE | sed 's/\(<tr>\|<\/tr>\)//g' > NEWFILE
。
しかし、タグのリンクから名前を抽出したいと思います。<a>
たとえば、<a href="www.mywebsite.com?name="What_I_Want_To_Extract">
この問題で問題が発生していますが、次のコマンドを適用できません。助けが必要ですか?
答え1
grep -oP 'name="\K[^"]*' filename
出力:
What_I_Want_To_Extract
望むより:http://www.charlestonsw.com/perl-regular-expression-k-trick/
あなたのバージョンが調整されました:
grep -o 'name=".*">' HTMLFILE | sed 's/name="\|">//g' NEWFILE