一人で解決しようとしましたが、成功しなかった問題について助けを求めます。まもなく、次のような構造を持つ非常に大きなテーブル形式のデータファイルを処理する必要がありました。
14 R
16 I
21 B
22 C
23 Q
24 E
33 R
34 L
41 K
62 F
63 F
64 M
88 B
ちょっと待ってください...このソートされた昇順データにしたいのは、最初の列の3つ以上の連続語ブロックに対応する2番目の列の項目をソートすることです。したがって、上記のデータの予想出力は次のようになります。
21-24 BCQE
82-64 FFM
これまで私が完成したコードは次のとおりです。
prev=0
val=$(prev + 1)
while read -r n a ; do
if [[ ${n} == ${val} ]]
t="$( "$a" + ( "$(a - 1)" ) )" ; then
echo "$t"
fi
prev=$n
done < table
しかし、うまくいきません。
答え1
解決策awk
:
awk '{if(p+1==$1){c+=1}else{ if(c>1){printf "%s-%s %s\n", b, p, s;} c=0;s=""}} c==1{b=p} {p=$1;s=s$2}' file
今回は説明が読みやすくなります。
awk '{
if(p+1==$1){
c+=1 # increment the counter if the value is consecutive
} else {
if(c>1){
# print the begin and end values with the concatenated string
printf "%s-%s %s\n", b, p, s;
}
c=0 # reset the counter
s="" # reset the string to print
}
}
c==1{b=p} # set the begin value
{p=$1;s=s$2} # set the previous variable and the string for the next loop
' file
GNUを使ってテストawk
するmawk
答え2
使用awk
:
$ awk 'function out() { if (start != "") { if (start == prev) printf("%s\t%s\n", prev, string); else printf("%s-%s\t%s\n", start, prev, string) } } $1 != prev + 1 { out(); start = $1; string = "" } { prev = $1; string = string $2 } END { out() }' file
14 R
16 I
21-24 BCQE
33-34 RL
41 K
62-64 FFM
88 B
プログラムawk
:
function out() {
if (start != "") {
if (start == prev)
printf("%s\t%s\n", prev, string)
else
printf("%s-%s\t%s\n", start, prev, string)
}
}
$1 != prev + 1 { out(); start = $1; string = "" }
{ prev = $1; string = string $2 }
END { out() }
プログラムは、最初の列の前の数字prev
との2番目の列の接続を追跡しますstring
。前の最初の列が現在の最初の列より1つ少ない場合、発生したすべてのものが更新されprev
ますstring
。
番号付けに「スペース」がある場合は、out()
収集されたデータを記録された間隔で出力するために呼び出されます。この関数は入力の終わりに呼び出されます。
シェルの逐語的同等物は次のとおりですsh
。
out () {
if [ -n "$start" ]; then
if [ "$start" = "$prev" ]; then
printf '%s\t%s\n' "$prev" "$string"
else
printf '%s-%s\t%s\n' "$start" "$prev" "$string"
fi
fi
}
while read -r num str; do
if [ "$num" -ne "$(( prev + 1 ))" ]; then
out
start=$num
string=""
fi
prev=$num
string=$string$str
done <file
out
ちょうど数字につながる行が2つだけあっても、これが結合されることがわかりました。後で修正することもできますが、今はここにそのまま残します。
答え3
他のところで述べたように、bashは作業に最適なツールではない可能性があり、Perlやawkで実行する方が簡単です。これさえ:
#! /bin/bash
print() {
# "${array[*]}" joins the elements with the first characters of IFS as separator
# so we set IFS to the empty string so that the elements are simply concatenated
local IFS=
if (( end - start > 1 )) # more than two consecutive numbers, concatenate
then
printf "%s-%s\t%s\n" "$start" "$end" "${chars[*]}"
elif (( start == end )) # single number, nothing special
then
printf "%s\t%s\n" "$start" "${chars[0]}"
elif (( end - start == 1 )) # two consecutive numbers, print separately
then
printf "%s\t%s\n" "$start" "${chars[0]}" "$end" "${chars[1]}"
fi
}
# An initial read
read -r n a
chars=( "$a" )
start=$n
end=$n
while read -r n a
do
if (( n - end == 1 )) # consecutive numbers, store for printing
then
chars+=( "$a" )
end=$n
continue # move to next line
fi
print # Break in numbers, print stored set
chars=( "$a" ) # reset variables
start=$n
end=$n
done
print # print last set
他の行が必要ない場合は、関数elif
からブロックを削除できますprint
。
出力例:
14 R
16 I
21-24 BCQE
33 R
34 L
41 K
62-64 FFM
88 B