テーブルの作成 - ファイル名に基づいて列を追加する

Question 1

最も可能性の高い答えは、データファイル列がタブで区切られず、スペースで区切られていることです。cat -vet実際のタブが表示されている場所のいずれかを実行してこれを確認できます^I。

スペースを区切り文字として使用するようにコマンドを変更するには、cutargを追加する必要がありますが、すでに単一引用符とawkスクリプト内にあるので、次のように-d' '変更する必要があります。sprintf(...)

sprintf("<(cut -d\" \"  -f4 %s)",$0)

Answer

最も可能性の高い答えは、データファイル列がタブで区切られず、スペースで区切られていることです。cat -vet実際のタブが表示されている場所のいずれかを実行してこれを確認できます^I。

スペースを区切り文字として使用するようにコマンドを変更するには、cutargを追加する必要がありますが、すでに単一引用符とawkスクリプト内にあるので、次のように-d' '変更する必要があります。sprintf(...)

sprintf("<(cut -d\" \"  -f4 %s)",$0)

Question 2

大きすぎないファイルの場合：

while read -r f_part
do
    awk '
        BEGIN{
            SUBSEP=" "
        }
        NR==1{
            for(i=2;i<ARGC;i++)
                $(NF+1)=$NF
            print
        }
        FNR==1{
             next
        }
        {
             RES[$1,$2,$3]=RES[$1,$2,$3] $4 " "
        }
        END{
             for(i in RES)
                 print i, RES[i]
        }' *_${f_part}_* > big_table_${f_part}
done < <(printf '%s\n' *_*_*_*txt | cut -d_ -f3 | sort -u)

または、ファイルの順序が正しいと確信している場合：

while read -r f_part
do 
    set -- *_${f_part}_*
    sed -i 's/\s+/:/3;s/\s\+/\t/g;s/\s*$//' "$@"
    while [ $# -gt 1 ]
    do
        join -t: $1 $2 > tmp
        mv tmp big_table_${f_part}
        shift 2
        set -- big_table_${f_part} "$@"
    done
    sed 's/:/\t/g' big_table_${f_part}
done < <(printf '%s\n' *_*_*_*txt | cut -d_ -f3 | sort -u)

Answer

大きすぎないファイルの場合：

while read -r f_part
do
    awk '
        BEGIN{
            SUBSEP=" "
        }
        NR==1{
            for(i=2;i<ARGC;i++)
                $(NF+1)=$NF
            print
        }
        FNR==1{
             next
        }
        {
             RES[$1,$2,$3]=RES[$1,$2,$3] $4 " "
        }
        END{
             for(i in RES)
                 print i, RES[i]
        }' *_${f_part}_* > big_table_${f_part}
done < <(printf '%s\n' *_*_*_*txt | cut -d_ -f3 | sort -u)

または、ファイルの順序が正しいと確信している場合：

while read -r f_part
do 
    set -- *_${f_part}_*
    sed -i 's/\s+/:/3;s/\s\+/\t/g;s/\s*$//' "$@"
    while [ $# -gt 1 ]
    do
        join -t: $1 $2 > tmp
        mv tmp big_table_${f_part}
        shift 2
        set -- big_table_${f_part} "$@"
    done
    sed 's/:/\t/g' big_table_${f_part}
done < <(printf '%s\n' *_*_*_*txt | cut -d_ -f3 | sort -u)

Question 3

for f in rcp8p5 rcp4p5
do  : >"$f.txt"
    find . ! -name . -prune ! -type d -name "*_${f}_*txt" -exec \
        sh -c '
            printf "%s\t" YEAR MONTH DAY
            printf "%.0sRES\t" "$@"; echo
            sed -n "
                /^[0-9]/!d;p;:n
                n
                /^[0-9]/s/.*[[:blank:]]//p
                bn
            "  "$@" | paste
    ' --    {} + >>"$f.txt"
done

...私の考えでは、あなたが以前やっていたことについて私が間違っている可能性があるので、これが報酬になる可能性があります。これがうまくいくかどうかはわかりませんが、そうであればそうする必要があります。方法今やっているより速いです。

デフォルトでは、名前が一致するファイルのリストを取得するか、findシェルに渡します。...8......4...{} +

シェルはYEAR MONTH DAYそれぞれで始まり、その後に\tabが続くヘッダー行を印刷し、引数と同じ数の列をRES印刷します。

その後、sedすべてのファイルパラメータをストリームに連結し、数字で始まる最初の行全体を印刷し、数字で始まるすべての後続行は最後のフィールドのみを印刷します。

sedのすべての出力はに渡され、入力のすべての行をpaste出力のABSに置き換えます。\n\t

このバージョンが欲しい〜する新しいサブシェルを呼び出し、リスト内の各ファイルに対して新しいパイプを開くのはほとんど悪い考えなので、うまくいきます。

もしそうなら〜するただし、表の各グループに新しい行を追加してください。ARGMAX文書化 - これはおそらく悪いことではありませんが、後で処理するのは簡単です。

Answer

for f in rcp8p5 rcp4p5
do  : >"$f.txt"
    find . ! -name . -prune ! -type d -name "*_${f}_*txt" -exec \
        sh -c '
            printf "%s\t" YEAR MONTH DAY
            printf "%.0sRES\t" "$@"; echo
            sed -n "
                /^[0-9]/!d;p;:n
                n
                /^[0-9]/s/.*[[:blank:]]//p
                bn
            "  "$@" | paste
    ' --    {} + >>"$f.txt"
done