テキストファイルからXMLを抽出する方法

Question 1

元の問題は
cat test.xml | tr "<" "\n" | sed -n '/taga>./p' | sed 's/taga>//'
2番目の問題で解決され、現在の問題は次に解決されます。
cat test.xml | sed 's/[0-9][0-9][0-9][0-9]=/\n/g'

4桁の数字の後に=記号が表示されるかどうかを検索するので、実際の文字列の他の場所にこの種の文字がある場合は機能しませんが、今はそうではありません。

Answer

元の問題は
cat test.xml | tr "<" "\n" | sed -n '/taga>./p' | sed 's/taga>//'
2番目の問題で解決され、現在の問題は次に解決されます。
cat test.xml | sed 's/[0-9][0-9][0-9][0-9]=/\n/g'

4桁の数字の後に=記号が表示されるかどうかを検索するので、実際の文字列の他の場所にこの種の文字がある場合は機能しませんが、今はそうではありません。

Question 2

コードスニペットを見ると、「number =」で区切られたXMLがあるようです。したがって、分割を使用して以下を抽出します。

#!/usr/bin/env perl
use strict;
use warnings;

use Data::Dumper;

local $/;
my @xml_chunks = split ( /\d+\=/, <> );
print Dumper \@xml_chunks;

もちろん、あなたのXMLは...そうではないことに注意してください。この文は無効です。しかし、私はこれが前置エラーであると仮定します。しかしそれはしなければならない次のようになります。

<?xml version="1.0" encoding="utf-8"?>

したがって、サンプルデータの場合、これはXMLを修正する合理的な近似です（もちろん有効ではないと仮定）。

#!/usr/bin/env perl
use strict;
use warnings;
use XML::Twig;
use Data::Dumper;

local $/;
my @xml_chunks = split( /\d+\=/, <DATA> );
print Dumper \@xml_chunks;

foreach my $chunk ( grep {/xml/} @xml_chunks ) {
    $chunk =~ s/^<[^>]+>//;
    my $twig = XML::Twig->new( pretty_print => 'indented_a' );
    $twig->parse($chunk);
    $twig->set_encoding('utf-8');
    $twig->set_xml_version('1.0');
    $twig->root->set_att( 'xmlns', 'http://www.some_ns.com' );
    $twig->print;
}

Answer

コードスニペットを見ると、「number =」で区切られたXMLがあるようです。したがって、分割を使用して以下を抽出します。

#!/usr/bin/env perl
use strict;
use warnings;

use Data::Dumper;

local $/;
my @xml_chunks = split ( /\d+\=/, <> );
print Dumper \@xml_chunks;

もちろん、あなたのXMLは...そうではないことに注意してください。この文は無効です。しかし、私はこれが前置エラーであると仮定します。しかしそれはしなければならない次のようになります。

<?xml version="1.0" encoding="utf-8"?>

したがって、サンプルデータの場合、これはXMLを修正する合理的な近似です（もちろん有効ではないと仮定）。

#!/usr/bin/env perl
use strict;
use warnings;
use XML::Twig;
use Data::Dumper;

local $/;
my @xml_chunks = split( /\d+\=/, <DATA> );
print Dumper \@xml_chunks;

foreach my $chunk ( grep {/xml/} @xml_chunks ) {
    $chunk =~ s/^<[^>]+>//;
    my $twig = XML::Twig->new( pretty_print => 'indented_a' );
    $twig->parse($chunk);
    $twig->set_encoding('utf-8');
    $twig->set_xml_version('1.0');
    $twig->root->set_att( 'xmlns', 'http://www.some_ns.com' );
    $twig->print;
}

Question 3

私の考えではsedがうまくいくようですが、Perlソリューションを作成します。

 perl -ane 'while (/(<\?xml.*?>)($|\d+=)/g) { push @w,$1; }' \
        -e 'print join("\n",@w)."\n";@w=();'

Perlの正規表現の仕事は、/g「スタートNext正規表現はここで一致します。 "一致するものがない場合、正規表現は0（false）を返し、ループを終了してwhileコドンが出力を印刷できるように@wします。検索範囲が本質的に数字と等号であると仮定します。

Answer

私の考えではsedがうまくいくようですが、Perlソリューションを作成します。

 perl -ane 'while (/(<\?xml.*?>)($|\d+=)/g) { push @w,$1; }' \
        -e 'print join("\n",@w)."\n";@w=();'

Perlの正規表現の仕事は、/g「スタートNext正規表現はここで一致します。 "一致するものがない場合、正規表現は0（false）を返し、ループを終了してwhileコドンが出力を印刷できるように@wします。検索範囲が本質的に数字と等号であると仮定します。

テキストファイルからXMLを抽出する方法

答え1

答え2

答え3

関連情報