単一の列を持つ行を行の最大4つの列に結合するには?

単一の列を持つ行を行の最大4つの列に結合するには?

次のファイルがあります。

1 
4 5 6 7 19
20
22
24 26 27 
29
30
31
32 
34 
40 
50 
56 
58
100
234 235 270 500
1234 1235 1236 1237
2300
2303
2304
2307
2309

一部の行には2つ以上の列があり、他の行には1つの列しかないことは明らかです。結合された各行に最大4つの列があるように、単一の列行を結合したいと思います。したがって、出力は次のようになります。

1  
4 5 6 7 19
20 22
24 26 27 
29 30 31 32
34 40 50 56 
58 100
234 235 270 500
1234 1235 1236 1237
2300 2303 2304 2307
2309

実際のデータが大きいことを考慮してこれを行う方法に関する提案はありますか?

答え1

少し寛容ですが、gnu awkで動作します。

awk '{printf "%s",(NF==1?$0 FS:(c==0?"":RS) $0 RS)} \
{(NF==1?++c:c=0)} \
c==4{printf "\n";c=0} \
END{printf "\n"}' file

#Output
1 
4 5 6 7 19
20 22 
24 26 27
29 30 31 32 
34 40 50 56 
58 100 
234 235 270 500
1234 1235 1236 1237
2300 2303 2304 2307 
2309 

説明する:
awk変数:
NF =フィールド数
FS =フィールドセパレータ=デフォルトスペーススペース
RS =レコードセパレータ=デフォルト改行。
c=カウンター

ライン1: {printf "%s",(NF==1?$0 FS:(c==0?"":RS) $0 RS)}:演算の場合、入れ子になった三項

#Single ternary if operation:
condition?true action:false action
#Nested if operations:  
condition1?true action 1:(condition2:true action2:false action2) #nested ternary if operations   
-------------------------[            ^ false action1 ^        ]   

これは疑似コードで説明できます。たとえば、次のようになります。

if NF==1 then print $0 and print FS   
else (if c==0 then print "" else print RS) and print $0 and print RS again   

2号線: {(NF==1?++c:c=0)}:別の三項if演算で次のように表現できます。

If NF==1 (line has one field) 
then increase counter c by one 
else reset counter c.  

行3: c==4{printf "\n";c=0}クラシックawk構文:condition{action}

If counter c==4 then print a new line and reset counter c

行4: END{printf "\n"}' file:スクリプトの最後に新しい行を印刷します。

答え2

次の方法を使用して必要なものsedを取得できます。

sed -e '
   /./!b
   /[^[:space:]]/!b
   /[^[:space:]][[:blank:]]\{1,\}[^[:space:]]/b

   :loop
      $q;N
      /\n.*\S[[:blank:]]\+\S/b
      s/\n/ /;tdummy
      :dummy
      s/[[:space:]]\{1,\}/&/3;t
   bloop
' yourfile


説明する

  • 空白、空白、NF> 1行をスキップします。
  • パターン空間に単一のフィールド行を含むdo-whileループを設定します。
  • 次の行をつかみ、NF> 1であることを確認してください。この時点で、パターン領域全体を印刷し、次の行の読み取りに戻ります。
  • 今、私たちは次の行も単一のフィールドであることを知っているので、パターンスペースの2つの部分をつなぐ改行文字を切り取り続けます。
  • パターンスペースにスペースブロックが3つありますか?その場合は、パターン領域全体を印刷し、次の行を読み始めます。
  • それ以外の場合は、次の行を順次読み込みますが、それを既存のパターン空間に追加するループに分岐します。

結果

1
4 5 6 7 19
20 22
24 26 27
29 30 31 32
34 40 50 56
58 100
234 235 270 500
1234 1235 1236 1237
2300 2303 2304 2307
2309

答え3

使用法: ./join_rows.awk input.txt

システムによって場所が異なる場合があるので、#!/usr/bin/awk -fshebangを確認してください。awk

#!/usr/bin/awk -f

BEGIN {
    count = 1;
}

{
    if (NF == 1) {
        if (count > 1 && count <= 4) printf " ";

        printf "%s", $1;
        count++;

        if (count > 4) {
            printf "\n";
            count = 1;
        }
    } else {
        if (count > 1) printf "\n";

        print;
        count = 1;
    }
}

END {
    if(count > 1) printf "\n";
}

出力:

1
4 5 6 7 19
20 22 
24 26 27  
29 30 31 32
34 40 50 56
58 100
234 235 270 500
1234 1235 1236 1237 
2300 2303 2304 2307
2309

答え4

拡大する愚かな方法:

columns.awk 並べ替えスクリプト:

#!/bin/awk -f
function printRow(a, i, v)
{
    for (i in a) {
        printf "%s ", a[i]
    }
   print ""
   delete a
}
NF <= 2{
    for (i=1; i<=NF; i++) { 
        a[++c] = $i 
        if (length(a) == 4) {
            c = 0 
            printRow(a) 
        }
    }
}
NF > 2{
    if (length(a) > 0) {
        c = 0
        printRow(a)
    }
    print $0 
}
END{ print }

使用法:

awk -f rearrange_columns.awk yourfile

出力:

1 
4 5 6 7 19
20 22 
24 26 27 
29 30 31 32 
34 40 50 56 
58 100 
234 235 270 500
1234 1235 1236 1237
2300 2303 2304 2307 
2309

関連情報