次のデータを含む2つのCSVがあります。
ファイル 1.csv:-
path(S1),filename,timestamp(S1),memory(S1)
xx/APS50CC2,APS50CC2,23-09-2019,45
yy/APS50CC3,APS50CC3,18-09-2019,25
ファイル2.csv:-
path(S2),filename,timestamp(S2),memory(S2)
mm/APS03CR1,APS03CR1,23-09-2019,200
zz/APS50CC2,APS50CC2,18-09-2019,55
期待される出力出力
.csv:-
filename,path(S1),timestamp(S1),memory(S1),path(S2),timestamp(S2),memory(S2)
APS50CC2,xx/APS50CC2,23-09-2019,45,zz/APS50CC2,18-09-2019,55
APS50CC3,yy/APS50CC3,18-09-2019,25,Not found,Not found,Not found
APS03CR1,Not found,Not found,Not found,mm/APS03CR1,23-09-2019,200
join
コマンドを試して実行しましたが、小さい入力セットでうまく機能します。ただし、500,000を超えるレコードを実行するとエラーが発生するため、使用したくありません。join
試してみたいですawk
。
私はこれに少し慣れていますawk
。構文を助けてください。ここで結合する鍵は2列、つまりですfilename
。
答え1
ミラーの使用(https://github.com/johnkerl/miller)と実行
mlr --csv join --ul --ur -j filename -f file1.csv \
then unsparsify --fill-with "Not found" \
then reorder -f "filename","path(S1)","timestamp(S1)","memory(S1)","path(S2)","timestamp(S2)","memory(S2)" file2.csv
あなたはやる
+----------+-------------+---------------+-------------+---------------+------------+--------------+
| filename | path(S1) | timestamp(S1) | path(S2) | timestamp(S2) | memory(S2) | memory(S1) |
+----------+-------------+---------------+-------------+---------------+------------+--------------+
| APS03CR1 | Not found | Not found | mm/APS03CR1 | 23-09-2019 | 200 | Not found |
| APS50CC2 | xx/APS50CC2 | 23-09-2019 | zz/APS50CC2 | 18-09-2019 | 55 | 45 |
| APS50CC3 | yy/APS50CC3 | 18-09-2019 | Not found | Not found | Not found | 25 |
+----------+-------------+---------------+-------------+---------------+------------+--------------+
奇妙なことではありませんが、Millerはもう一つの素晴らしい構造化テキストツールです。