タグ間情報抽出[重複]

Question 1

grepタグ間のテキストを見つけて、タグ自体を削除してsedこれを行うことができます。

$ grep -oP '<category.+?>.*?</category>' file.txt | sed 's/<.*>\(.*\)<.*>/\1/'
myotonic dystrophy
Myotonic dystrophy
DM
DM
DM

grep -oP：-Pできるようにするポリメラーゼ連鎖反応grep一致する文字列のみを印刷するようにします-o。
'<category.+?>.*?</category>':grep開くタグと閉じるタグcategoryの間のすべての項目を検索することを意味します。
sed 's/<.*>\(.*\)<.*>/\1/'：上記の出力はgrepパイプで接続されており、sedタグをその内容に置き換えて簡単に削除します（ここでは\1タグをキャプチャするために括弧が使用されるため）。

Answer

grepタグ間のテキストを見つけて、タグ自体を削除してsedこれを行うことができます。

$ grep -oP '<category.+?>.*?</category>' file.txt | sed 's/<.*>\(.*\)<.*>/\1/'
myotonic dystrophy
Myotonic dystrophy
DM
DM
DM

grep -oP：-Pできるようにするポリメラーゼ連鎖反応grep一致する文字列のみを印刷するようにします-o。
'<category.+?>.*?</category>':grep開くタグと閉じるタグcategoryの間のすべての項目を検索することを意味します。
sed 's/<.*>\(.*\)<.*>/\1/'：上記の出力はgrepパイプで接続されており、sedタグをその内容に置き換えて簡単に削除します（ここでは\1タグをキャプチャするために括弧が使用されるため）。

Question 2

これはPCREを介して行うことができます。今まで試してみましたが、まだ完全に理解していません。

以下は、私が試して動作しているタスクの例です。

grep -oP '(?:<category=[A-Za-z\"\s]*>)[A-Za-z\s]+(?:<\/category>)' input|\
awk -F">" '{split($2,a,"<"); print a[1]}'

Answer

これはPCREを介して行うことができます。今まで試してみましたが、まだ完全に理解していません。

以下は、私が試して動作しているタスクの例です。

grep -oP '(?:<category=[A-Za-z\"\s]*>)[A-Za-z\s]+(?:<\/category>)' input|\
awk -F">" '{split($2,a,"<"); print a[1]}'

関連情報