希望の結果が得られないため、迅速な支援が必要です。
2020-05-19 19:03:07,135 INFO [Container : 8504] [HttpUtil.java]requestXML: <?xml version="1.0"? ><COMMAND><TYPE>RCTRFREQ</TYPE><DN1>99847</DN1><AMOUNT>49</AMOUNT></COMMAND> -
2020-05-19 19:05:07,135 INFO [Container : 8504] [HttpUtil.java]requestXML: <?xml version="1.0"? ><COMMAND><PE>RC</PE><DN1>92847</DN1><AMOUNT>19</AMOUNT></COMMAND> -
2020-05-19 19:05:07,135 INFO [Container : 8504] [HttpUtil.java]requestXML: <?xml version="1.0"? ><COMMAND><DN1>947</DN1><TYPE>RC</TYPE><AMOUNT>29</AMOUNT></COMMAND> -
希望の出力:
Time,DN1,AMOUNT
2020-05-19 19:03:07,99847,49
2020-05-19 19:05:07,92847,19
2020-05-19 19:05:07,947,29
答え1
$ awk '
BEGIN { FS=",|</?(DN1|AMOUNT)>"; OFS=","; print "Time", "DN1", "AMOUNT" }
{ print $1, $3, $(NF-1) }
' file
Time,DN1,AMOUNT
2020-05-19 19:03:07,99847,49
2020-05-19 19:05:07,92847,19
2020-05-19 19:05:07,947,29
FS
上記のコードは、入力を(たとえば,
、、、、<DN1>
および</DN1>
)<AMOUNT>
に格納されている正規表現と一致する文字列で区切られたフィールドに分割し、最後の最初</AMOUNT>
、3番目、および2番目のフィールドを印刷するようにawkに指示します。
上記が各レコードをフィールドに分割する方法は次のとおりです。
$ awk -F',|</?(DN1|AMOUNT)>' '{print "----" ORS $0; for (i=1;i<=NF;i++) print NR, i "/" NF, $i}' file
----
2020-05-19 19:03:07,135 INFO [Container : 8504] [HttpUtil.java]requestXML: <?xml version="1.0"? ><COMMAND><TYPE>RCTRFREQ</TYPE><DN1>99847</DN1><AMOUNT>49</AMOUNT></COMMAND> -
1 1/6 2020-05-19 19:03:07
1 2/6 135 INFO [Container : 8504] [HttpUtil.java]requestXML: <?xml version="1.0"? ><COMMAND><TYPE>RCTRFREQ</TYPE>
1 3/6 99847
1 4/6
1 5/6 49
1 6/6 </COMMAND> -
----
2020-05-19 19:05:07,135 INFO [Container : 8504] [HttpUtil.java]requestXML: <?xml version="1.0"? ><COMMAND><PE>RC</PE><DN1>92847</DN1><AMOUNT>19</AMOUNT></COMMAND> -
2 1/6 2020-05-19 19:05:07
2 2/6 135 INFO [Container : 8504] [HttpUtil.java]requestXML: <?xml version="1.0"? ><COMMAND><PE>RC</PE>
2 3/6 92847
2 4/6
2 5/6 19
2 6/6 </COMMAND> -
----
2020-05-19 19:05:07,135 INFO [Container : 8504] [HttpUtil.java]requestXML: <?xml version="1.0"? ><COMMAND><DN1>947</DN1><TYPE>RC</TYPE><AMOUNT>29</AMOUNT></COMMAND> -
3 1/6 2020-05-19 19:05:07
3 2/6 135 INFO [Container : 8504] [HttpUtil.java]requestXML: <?xml version="1.0"? ><COMMAND>
3 3/6 947
3 4/6 <TYPE>RC</TYPE>
3 5/6 29
3 6/6 </COMMAND> -
答え2
うまく設定された行は、次の方法で解析できますsed
。
sed -En 's|^([^,]+),.*<DN1>(.+)</DN1>.*<AMOUNT>(.+)</AMOUNT>.*|\1,\2,\3|p' file
-E
拡張正規表現の有効化-n
読み取りラインの自動印刷を無効にするs|...|___|
その部分に一致する行を検索し、...
次に置き換えます。___
^([^,]+),
最初から最初まで合わせて,
入れてください\1
<DN1>(.+)</DN1> matches the
DN1element and puts its content into
\2`<AMOUNT>(.+)</AMOUNT>
同じことAMOUNT
\1,\2,\3
交換結果p
一致する行が標準出力に印刷されていることを確認してください。
答え3
awk
これは、次のコマンドを使用して実行できますsed
。
awk 'BEGIN { FS="AMOUNT|,|DN1" ;OFS=","}; {print $1,$3,$5}' xmlfile | sed 's/<\|>\|\///g' > output.csv
答え4
この状況は、オネライナーで処理するには少し奇妙です。私はXMLを文字列ではなくXMLオブジェクトとして扱う必要があると主張したので、Pythonを選択しました。日付を文字列に解析し、読み込むXML文字列を見つけます。この方法を使用すると、後で XML または入力行の別のフィールドでより多くのノードにスクリプトをリンクしたい場合に、より柔軟性を得ることができます。
スクリプトに渡される最初のパラメータは入力ファイルです。
#!/usr/bin/python
import sys
import xml.etree.ElementTree as ET
def get_lines():
file_name = str(sys.argv[1])
f = open(file_name, 'r')
return f.readlines()
def print_header():
print("Time,DN1,AMOUNT")
def process_xml(xml):
doc = ET.ElementTree(ET.fromstring(xml))
elements = [
doc.find("DN1").text,
doc.find("AMOUNT").text
]
return (",").join(elements)
def process_date(line):
date = line.split()[:2]
date = " ".join(date).split(",")[0]
return date
def process_line(line):
fields = []
date = process_date(line)
xml = process_xml(line.split("<?xml version=\"1.0\"? >")[1][:-3])
fields.append(date)
fields.append(xml)
return (",").join(fields)
def process_all(lines):
print_header()
for line in lines:
print(process_line(line))
if __name__ == "__main__":
lines = get_lines()
process_all(lines)