巨大な順序のテキストファイルから2つの文字列間のテキストを抽出する

Question 1

非常に大きなファイルの場合、ユーティリティを使用すると、プレフィックスlookタイムスタンプの自然な順序を活用して、aと文字列の最大の共通プレフィックスに対して高速バイナリ検索を実行できます。その後、これを実行/後処理して、出力から関心のある行を抽出できます。startendawksedlook

存在するbash

export start='"2018-04-05 13:00:00"'
export end='"2018-04-05 13:05:00"'
#determine common prefix ("2018-04-05 13:0 in this example)
common_prefix=$(awk 'BEGIN {
   start=ENVIRON["start"]; end=ENVIRON["end"];
   len=length(start) > length(end)? length(end): length(start); 
   i=1;
   while (i <= len && substr(ENVIRON["start"], i, 1) == substr(ENVIRON["end"], i, 1)) {
       ++i
   }
    print(substr(start, 1, i-1))
}' </dev/null
)
#the -b option to look forces binary search. 
#My version of look on Ubuntu needs this flag to be passed, 
#some other versions of look perform a binary search by default and do not support a -b.
look -b "$common_prefix" file | awk '$0 ~ "^"ENVIRON["start"],$0 ~ "^"ENVIRON["end"]'

Answer

非常に大きなファイルの場合、ユーティリティを使用すると、プレフィックスlookタイムスタンプの自然な順序を活用して、aと文字列の最大の共通プレフィックスに対して高速バイナリ検索を実行できます。その後、これを実行/後処理して、出力から関心のある行を抽出できます。startendawksedlook

存在するbash

export start='"2018-04-05 13:00:00"'
export end='"2018-04-05 13:05:00"'
#determine common prefix ("2018-04-05 13:0 in this example)
common_prefix=$(awk 'BEGIN {
   start=ENVIRON["start"]; end=ENVIRON["end"];
   len=length(start) > length(end)? length(end): length(start); 
   i=1;
   while (i <= len && substr(ENVIRON["start"], i, 1) == substr(ENVIRON["end"], i, 1)) {
       ++i
   }
    print(substr(start, 1, i-1))
}' </dev/null
)
#the -b option to look forces binary search. 
#My version of look on Ubuntu needs this flag to be passed, 
#some other versions of look perform a binary search by default and do not support a -b.
look -b "$common_prefix" file | awk '$0 ~ "^"ENVIRON["start"],$0 ~ "^"ENVIRON["end"]'

Question 2

「2018-04-05 13:00:00」と「2018-04-05 13:05:00」の間の行を印刷します。

sed -n '/2018-04-05 13:00:00/,/2018-04-05 13:05:00/p' file

または

sed -n /"2018-04-05 13:00:00"/,/"2018-04-05 13:05:00"/p file

開始日「2018-04-05 13:00:00」をgrepし、次の5行（= 5分）を出力し、-m1最初の一致後に検索を停止します。

grep -m1 -A5 '2018-04-05 13:00:00' file

Answer

「2018-04-05 13:00:00」と「2018-04-05 13:05:00」の間の行を印刷します。

sed -n '/2018-04-05 13:00:00/,/2018-04-05 13:05:00/p' file

または

sed -n /"2018-04-05 13:00:00"/,/"2018-04-05 13:05:00"/p file

開始日「2018-04-05 13:00:00」をgrepし、次の5行（= 5分）を出力し、-m1最初の一致後に検索を停止します。

grep -m1 -A5 '2018-04-05 13:00:00' file

巨大な順序のテキストファイルから2つの文字列間のテキストを抽出する

答え1

答え2

関連情報