Bash - 特定のURLを除くすべてのURLを抽出する

Question 1

私の考えでは、sedだけを使うとこれを行うことができると思います。

sed -n '\,http://schemas.openxmlformats.org,!s/.*\(http:.*\).*/\1/p'

-nテキスト自動印刷を無効にして、選択した行のみを印刷します。
\,http://schemas.openxmlformats.org,!一致しない行でのみ、次のコマンドを実行してください（したがって!最後に）http://schemas.openxmlformats.org。ここでは正規表現の区切り記号,として not を使用しているので、最初はこうします。これにより、パターンから脱出する必要性が減ります。/\,\
コマンドはs あなたのコマンドと同じですが、pそれ以降はそのコマンドを使用してURLのみを含む行を印刷しました。

1行に1つのURLしかないとします。

追加の引用符を削除すると、正しい出力が得られます。

$ sed -n '\,http://schemas.openxmlformats.org,!s/.*\(http:.*\).*/\1/p' inpu-file
http://www.yahoo.com/

Answer

私の考えでは、sedだけを使うとこれを行うことができると思います。

sed -n '\,http://schemas.openxmlformats.org,!s/.*\(http:.*\).*/\1/p'

-nテキスト自動印刷を無効にして、選択した行のみを印刷します。
\,http://schemas.openxmlformats.org,!一致しない行でのみ、次のコマンドを実行してください（したがって!最後に）http://schemas.openxmlformats.org。ここでは正規表現の区切り記号,として not を使用しているので、最初はこうします。これにより、パターンから脱出する必要性が減ります。/\,\
コマンドはs あなたのコマンドと同じですが、pそれ以降はそのコマンドを使用してURLのみを含む行を印刷しました。

1行に1つのURLしかないとします。

追加の引用符を削除すると、正しい出力が得られます。

$ sed -n '\,http://schemas.openxmlformats.org,!s/.*\(http:.*\).*/\1/p' inpu-file
http://www.yahoo.com/

Question 2

grepwith オプションを使用すると、-v一致しない行を選択できます。たとえば、file.txt次の内容を含むファイルがあるとします。

first line
second line
third line
fourth text

次のコマンドを使用します。

grep "line" file.txt | grep -v "second"

結果は次のとおりです。

first line
third line

同時に複数の単語を除外するには、次の正規表現を使用できます。

grep "line" file.txt | grep -vE "(second|first)"

結果は次のとおりです。

    third line

質問を更新した後：

この状況では、次のいずれかの方法を使用できます。

最初の方法はあなたにのみ提供されますwww.yahoo。

yahoo2番目は、その単語を含むすべてのURLを提供します。

部分 URL を除くすべての URL を抽出するために使用されます。

grep 'http://' data.txt | sed 's/.*\(http:.*\)/\1/' | grep -vE "(openxmlformats|<Another URL to exclude>)"

Answer

grepwith オプションを使用すると、-v一致しない行を選択できます。たとえば、file.txt次の内容を含むファイルがあるとします。

first line
second line
third line
fourth text

次のコマンドを使用します。

grep "line" file.txt | grep -v "second"

結果は次のとおりです。

first line
third line

同時に複数の単語を除外するには、次の正規表現を使用できます。

grep "line" file.txt | grep -vE "(second|first)"

結果は次のとおりです。

    third line

質問を更新した後：

この状況では、次のいずれかの方法を使用できます。

最初の方法はあなたにのみ提供されますwww.yahoo。

yahoo2番目は、その単語を含むすべてのURLを提供します。

部分 URL を除くすべての URL を抽出するために使用されます。

grep 'http://' data.txt | sed 's/.*\(http:.*\)/\1/' | grep -vE "(openxmlformats|<Another URL to exclude>)"

関連情報