bashを使用して列内の3つ以上の連続語をソートする

bashを使用して列内の3つ以上の連続語をソートする

一人で解決しようとしましたが、成功しなかった問題について助けを求めます。まもなく、次のような構造を持つ非常に大きなテーブル形式のデータファイルを処理する必要がありました。

14       R
16       I
21       B
22       C
23       Q
24       E
33       R
34       L
41       K
62       F
63       F
64       M
88       B

ちょっと待ってください...このソートされた昇順データにしたいのは、最初の列の3つ以上の連続語ブロックに対応する2番目の列の項目をソートすることです。したがって、上記のデータの予想出力は次のようになります。

21-24    BCQE
82-64    FFM

これまで私が完成したコードは次のとおりです。

prev=0
val=$(prev + 1)
while read -r n a ; do
    if [[ ${n} == ${val} ]] 
        t="$( "$a" + ( "$(a - 1)" ) )"  ; then
        echo "$t"
    fi
    prev=$n
done < table

しかし、うまくいきません。

答え1

解決策awk

awk '{if(p+1==$1){c+=1}else{ if(c>1){printf "%s-%s %s\n", b, p, s;} c=0;s=""}} c==1{b=p} {p=$1;s=s$2}' file

今回は説明が読みやすくなります。

awk '{ 
  if(p+1==$1){
    c+=1 # increment the counter if the value is consecutive
  } else {
    if(c>1){
      # print the begin and end values with the concatenated string
      printf "%s-%s %s\n", b, p, s;
    }
    c=0 # reset the counter
    s="" # reset the string to print
  }
}
c==1{b=p} # set the begin value
{p=$1;s=s$2} # set the previous variable and the string for the next loop
' file 

GNUを使ってテストawkするmawk

答え2

使用awk:

$ awk 'function out() { if (start != "") { if (start == prev) printf("%s\t%s\n", prev, string); else printf("%s-%s\t%s\n", start, prev, string) } } $1 != prev + 1 { out(); start = $1; string = "" } { prev = $1; string = string $2 } END { out() }' file
14      R
16      I
21-24   BCQE
33-34   RL
41      K
62-64   FFM
88      B

プログラムawk:

function out() {
    if (start != "") {
        if (start == prev)
            printf("%s\t%s\n", prev, string)
        else
            printf("%s-%s\t%s\n", start, prev, string)
    }
}

$1 != prev + 1 { out(); start = $1; string = "" }

{ prev = $1; string = string $2 }

END { out() }

プログラムは、最初の列の前の数字prevとの2番目の列の接続を追跡しますstring。前の最初の列が現在の最初の列より1つ少ない場合、発生したすべてのものが更新されprevますstring

番号付けに「スペース」がある場合は、out()収集されたデータを記録された間隔で出力するために呼び出されます。この関数は入力の終わりに呼び出されます。

シェルの逐語的同等物は次のとおりですsh

out () {
    if [ -n "$start" ]; then
        if [ "$start" = "$prev" ]; then
            printf '%s\t%s\n' "$prev" "$string"
        else
            printf '%s-%s\t%s\n' "$start" "$prev" "$string"
        fi
    fi
}

while read -r num str; do
    if [ "$num" -ne "$(( prev + 1 ))" ]; then
        out
        start=$num
        string=""
    fi

    prev=$num
    string=$string$str
done <file

out

ちょうど数字につながる行が2つだけあっても、これが結合されることがわかりました。後で修正することもできますが、今はここにそのまま残します。

答え3

他のところで述べたように、bashは作業に最適なツールではない可能性があり、Perlやawkで実行する方が簡単です。これさえ:

#! /bin/bash

print() {
# "${array[*]}" joins the elements with the first characters of IFS as separator
# so we set IFS to the empty string so that the elements are simply concatenated 
    local IFS=
    if (( end - start > 1 ))    # more than two consecutive numbers, concatenate
    then
        printf "%s-%s\t%s\n" "$start" "$end" "${chars[*]}"
    elif (( start == end ))                     # single number, nothing special
    then
        printf "%s\t%s\n" "$start" "${chars[0]}"
    elif (( end - start == 1 ))      # two consecutive numbers, print separately
    then
        printf "%s\t%s\n" "$start" "${chars[0]}" "$end" "${chars[1]}"
    fi
}

# An initial read
read -r n a
chars=( "$a" )
start=$n
end=$n

while read -r n a
do 
    if (( n - end == 1 ))  # consecutive numbers, store for printing
    then
        chars+=( "$a" )
        end=$n
        continue           # move to next line
    fi
    print                  # Break in numbers, print stored set
    chars=( "$a" )         # reset variables
    start=$n
    end=$n
done

print                      # print last set

他の行が必要ない場合は、関数elifからブロックを削除できますprint

出力例:

14  R
16  I
21-24   BCQE
33  R
34  L
41  K
62-64   FFM
88  B

関連情報