ファイルには次の構文があります(シミュレートされたhttp応答時間から)。
<thead><tr><th class="x">seconds</th><th class="R">reqs</th><th class="r">%reqs</th><th class="B">Gbytes</th><th class="b">%bytes</th></tr></thead>
<tbody><tr><td class="x">0</td><td class="R">10927</td><td class="r"> 0.47%</td><td class="B">0.01</td><td class="b"> 0.18%</td></tr>
<tr><td class="x"><= 0.01</td><td class="R">1026471</td><td class="r">44.59%</td><td class="B">0.11</td><td class="b"> 1.81%</td></tr>
<tr><td class="x">0.01-0.02</td><td class="R">535390</td><td class="r">23.26%</td><td class="B">0.06</td><td class="b"> 0.95%</td></tr>
<tr><td class="x">0.02-0.05</td><td class="R">93298</td><td class="r"> 4.05%</td><td class="B">0.27</td><td class="b"> 4.29%</td></tr>
など。
私が残したいのは秒値です。したがって、「x」の後と最初の<の前には2つの文字があります。
また、要求長なので、「R」の後と次の<の前に2文字があります。
おそらく正規表現を学ぶための最良の練習ではないでしょう。しかし、それが私が固守しているのです。どんな助けでもとても役に立ちます。
予想される結果:
seconds reqs
0 10927
<= 0.01 1026471
0.01-0.02 535390
0.02-0.05 93298
答え1
HTMLの形式がわからない限り、これを制御でき、エラーなどは問題になりません。正規表現を使用できますが、上記のようにお勧めできません。
私はそれを直接使用しますが、主に単純なデータを一度に抽出するときに使用します。
たとえば、Perl を使用できます。HTML::TokeParser::シンプル。
非常に単純化されました:
#!/usr/bin/perl
use strict;
use warnings;
use HTML::TokeParser::Simple;
use HTML::Entities;
use utf8;
die "$0 [file | url]\n" unless defined $ARGV[0];
my $tp;
if ($ARGV[0] =~ /^http:\/\//) {
$tp = HTML::TokeParser::Simple->new(url => $ARGV[0]);
} else {
$tp = HTML::TokeParser::Simple->new(file => $ARGV[0]);
}
if (!$tp) {
die "No HTML file found.\n";
}
# Array to store data.
my @val;
# Index
my $i = 0;
# A bit mixed code with some redundancy.
# Could be done much simpler, - or much more safe.
# E.g. Check for thead, tbody etc and call a sub to parse those.
# You could off course also print directly (not save to array),
# but you might want to use the data for something?
while (my $token = $tp->get_token) {
if ($token->is_start_tag('th') && $token->get_attr('class') eq 'x') {
$val[$i++] = $tp->get_token->as_is;
} elsif ($token->is_start_tag('th') && $token->get_attr('class') eq 'R') {
$val[$i++] = $tp->get_token->as_is;
} elsif ($token->is_start_tag('td') && (
($token->get_attr('class') eq 'x') ||
($token->get_attr('class') eq 'R'))) {
$val[$i++] = decode_entities($tp->get_token->as_is);
}
}
my @width_col = (10, 8);
if ($i > 2 && !($i % 2)) {
$i = 0;
printf("%*s %*s\n",
$width_col[0], "$val[$i++]",
$width_col[1], "$val[$i++]"
);
while ($i < $#val) {
printf("%*s %*d\n",
$width_col[0], "$val[$i++]",
$width_col[1], "$val[$i++]"
);
}
} else {
die "ERR. Unable to extract data.\n"
}
結果の例:
$ ./extract htmlsample
seconds reqs
0 10927
<= 0.01 1026471
0.01-0.02 535390
0.02-0.05 93298
答え2
すでに述べたように正規表現は HTML の解析には適していません。。他に似ている回答分析これを行うには、次のようなRubyステートメントを作成できます。必要であることを参考にしてくださいノコチェgem()としてインストールできますsudo gem install nokogiri
。
ruby -rnokogiri -e 'h = Nokogiri::HTML(readlines.join); h.css("tr .x").zip(h.css("tr .R")).each { |d| puts "#{d[0].content} #{d[1].content}" }' sample.html
class="x"
これはSample.htmlから読み取られ、その属性を持つ要素内のすべての項目とその属性を持つtr
要素内のすべての項目がペアになる2次元配列を生成します。次に、1行に1対ずつ印刷します。あなたの例では、出力は次のようになりますclass="R"
tr
seconds reqs
0 10927
<= 0.01 1026471
0.01-0.02 535390
0.02-0.05 93298
答え3
これにより、目的のフィールドを取得するために使用sed
できます。cut
これは1行のステートメントですが、わかりやすくするためにコメント付きのスクリプトファイルで書かれています。
#!/bin/sed -f
s!</*thead!<tbody!g; # to not get caught by 'th' below
s!<t[dh][^>]*>!%%%!g; # replace start tag 'td' or 'th' with a delimitor
s!</t[dh]>!@@@!g; # replace end tag 'td' or 'th' with a delimitor
s/<[^>]*>//g; # delete any other tags
s/%%%\([^@]*\)@@@/\1 /g; # get text between start and stop delimitors with a space
s/ $// # remove trailing space
次のように呼び出します。
$ sed -f glean.sed test.html
seconds reqs %reqs Gbytes %bytes
0 10927 0.47% 0.01 0.18%
<= 0.01 1026471 44.59% 0.11 1.81%
0.01-0.02 535390 23.26% 0.06 0.95%
0.02-0.05 93298 4.05% 0.27 4.29%
その後、必要なものを使用して最初の2つのフィールドを取得できます(私が提案したようにcut
)。