単一のキーに対応する値をグループ化するときに、2つ以上のフィールドを持つcsv形式のファイルでこれを試しました。たとえば、次のようになります。
Keyobject,FieldName,Fieldvalue
1,are you sleeping,yes
1,country of meeting,USA
2,are you sleeping,' '
2,country of meeting,' '
3,are you sleeping,yes
3,country of meeting,CHINA
4,are you sleeping,yes
4,country of meeting,ITALY
予想出力:
Keyobject,Are you sleeping,country of meeting
1,yes,USA
2, ,
3,yes,CHINA
4,no,ITALY.
おおよそのアイデアやスクリプトを提供してください。
答え1
awk -F, '
NR > 1 {ids[$1]; keys[$2]; value[$1,$2] = $3}
END {
printf "Keyobject"
for (k in keys)
printf ",%s", k
print ""
for (id in ids) {
printf id
for (k in keys)
printf ",%s", value[id,k]
print ""
}
}
' file
答え2
また試み
awk -F, -v OFS="," '
NR == 1 {HD = "Keyobject,are you sleeping,country of meeting"
for (MX=n=split (HD, HDArr, OFS); n>0; n--) SRCH[HDArr[n]]
print HD
next
}
$2 in SRCH {RES[$2] = $3
RES[HDArr[1]] = $1
}
NR%2 {for (i=1; i<=MX; i++) printf "%s%s", RES[HDArr[i]], (i == MX)?ORS:OFS
split ("", RES)
}
' file
Keyobject,are you sleeping,country of meeting
1,yes,USA
2,' ',' '
3,yes,CHINA
4,yes,ITALY
行1を読み取ると、タイトル要素でインデックス付けされたタイトルと検索配列が作成され、タイトルが印刷されます。次の行では、$ 2でインデックス付けされた結果の配列が$ 3に割り当てられ、 "Keyobject"インデックス文字列と重複しています。 1行ずつフィルタリングして結果を印刷し、結果の配列を削除します。
答え3
awk <file -v IV="' '" -v OV=" " -F, '
$1+0 {
b = $2 == IV ? OV : $2
a[$1,$2] = $3 == IV ? OV : $3
if($1 > max) max = $1; t[$2]++;
}
END{
ORS = ""
print "Keyobject"
for(k in t) print FS k
print RS
for(i = 1; i <= max; i++){
print i
for(k in t)
print FS (i SUBSEP k in a ? a[i,k] : OV)
print RS
}
}
'
IV
変数をそれぞれ調整して、OV
入力と出力に含める空のフィールドを決定します。
答え4
csv ファイル名が「list.csv」であるとします。私はそうします:
#!/bin/bash
echo -e "Keyobject","Are you sleeping ", " Country of meeting" # create new header
cat list.csv | sed 1,1d | awk -F, 'NF>1{print $NF}' | paste -d', ' - - | sed 's/ /,/' | nl
1 yes,USA
2 ' ', ' '
3 yes,CHINA
4 yes,ITALY
説明する:
sed 1,1d # This command excludes the original header in list.csv
awk -F, 'NF>1{print $NF}' # This command reads the last word in each row
paste -d', ' - - # This command paste the words beside each other
sed 's/ /,/' # This command replaces blank spaces with commas
nl # This command adds numbering to the rows in the final output
ただし、このソリューションでは、元のcsvファイルの行が上記の例のように構成されていると想定しています。