特定のパターンからURLを抽出する（Google Notifier）

Question 1

次のコマンドラインを使用して処理できます。

cat INBOX | sed -z -e 's/=\n//g' | \
   sed -e 's/.*u0026url=3D//;t a;d;:a' -e 's/\\u0026ct=3D.*//'

最初のステップsedは、「=」で終わる行を後続の行に関連付けて、具体的に興味深い行の1行を作成することです。

2番目のステップでは、sedまずヘッダーを削除し、そのヘッダーのない行を削除して関心のある行を減らしてから、ターゲット行の尾部分を削除します。

Answer

次のコマンドラインを使用して処理できます。

cat INBOX | sed -z -e 's/=\n//g' | \
   sed -e 's/.*u0026url=3D//;t a;d;:a' -e 's/\\u0026ct=3D.*//'

最初のステップsedは、「=」で終わる行を後続の行に関連付けて、具体的に興味深い行の1行を作成することです。

2番目のステップでは、sedまずヘッダーを削除し、そのヘッダーのない行を削除して関心のある行を減らしてから、ターゲット行の尾部分を削除します。

Question 2

このコマンドを試すことはできますか？

awk -F"3D" '{print $4}' input.txt | sed "s/\\\u.*//"

Answer

このコマンドを試すことはできますか？

awk -F"3D" '{print $4}' input.txt | sed "s/\\\u.*//"

Question 3

どのように通知を受け取るかはわかりませんが、通知が単純なテキストファイルにある場合はどうすればよいのかを例に示します。まず、trを使用して "="を処理し、次のようにgrepでPearl Lookaroundを使用します。

cat input.txt | tr --delete '=\n'| grep -oP '(?<=url3D).*?(?=\\u0026)' input.txt

あなたの例を使った出力は次のとおりです。

http://abcnews.go.com/US/wireStory/judge-orders-forfeiture-cartel-money-laundering-case-44765120

Answer

どのように通知を受け取るかはわかりませんが、通知が単純なテキストファイルにある場合はどうすればよいのかを例に示します。まず、trを使用して "="を処理し、次のようにgrepでPearl Lookaroundを使用します。

cat input.txt | tr --delete '=\n'| grep -oP '(?<=url3D).*?(?=\\u0026)' input.txt

あなたの例を使った出力は次のとおりです。

http://abcnews.go.com/US/wireStory/judge-orders-forfeiture-cartel-money-laundering-case-44765120

Question 4

Ralph Rönnquistの提案を使ったトラブルシューティング

cat INBOX | sed -z -e 's/=\r\?\n//g' | \ sed -e 's/.*u0026url=3D//;t a;d;:a' -e 's/\\u0026ct=3D.*//' > output.txt

計算には時間がかかりますが、URLは正しく抽出されます。

助けてくださった皆さん、本当にありがとうございました！

Answer

Ralph Rönnquistの提案を使ったトラブルシューティング

cat INBOX | sed -z -e 's/=\r\?\n//g' | \ sed -e 's/.*u0026url=3D//;t a;d;:a' -e 's/\\u0026ct=3D.*//' > output.txt

計算には時間がかかりますが、URLは正しく抽出されます。

助けてくださった皆さん、本当にありがとうございました！

関連情報