私は一般的にUnixに初めて触れ、シェルスクリプトを学び始めました。次の例の行を含むCSVファイルを使用しています(項目ごとに4つの項目を含む大容量CSVファイル)。
Table 1
Item ID Time Available Location
0001 02/02/2021 08:00 Y NJ
0001 02/02/2021 09:00 N UT
0001 02/02/2021 10:00 Y AZ
0001 02/02/2021 11:00 Y CA
0002 02/02/2021 08:00 Y NJ
0002 02/02/2021 09:00 N UT
0002 02/02/2021 10:00 Y AZ
0002 02/02/2021 11:00 Y CA
次のプロジェクトIDを含む別のCSVがあります。
Table 2
Item ID Item_Name Item_Aux_ID Item_Aux_name
1001 IT_1 3323 IT_Aux_1
1002 IT_2 3325 IT_Aux_2
1003 IT_3 3328 IT_Aux_3
1010 IT_4 3333 IT_Aux_4
最初のCSVファイルに新しいエントリを作成したい(2番目のCSVファイルのエントリごとに1つのエントリ)。各新しい項目はTable1の最初の行と同じでなければならず、項目IDは適切に置き換えられなければなりません。予想される出力は次のとおりです。
Table 1
Item ID Time Available Location
0001 02/02/2021 08:00 Y NJ
0001 02/02/2021 09:00 N UT
0001 02/02/2021 10:00 Y AZ
0001 02/02/2021 11:00 Y CA
0002 02/02/2021 08:00 Y NJ
0002 02/02/2021 09:00 N UT
0002 02/02/2021 10:00 Y AZ
0002 02/02/2021 11:00 Y CA
1001 02/02/2021 08:00 Y NJ
1002 02/02/2021 08:00 Y NJ
1003 02/02/2021 08:00 Y NJ
1010 02/02/2021 08:00 Y NJ
上記の機能を達成するために、Unixでスクリプトをどのように書くことができますか?よろしくお願いします。
答え1
ロジックを理解するには、コメントを読んでください。
awk '
NR==2 {SV = $0 # save the relevant info from file1
RG = $1
}
NR != FNR {if (FNR==1) next # in new file: skip header
sub(RG, $1, SV) # insert new "item ID" in saved line
RG = $1 # save new search pattern
sub($0, SV) # replace input line with modified saved line
}
1 # print it
' file[12]
Item ID Time Available Location
0001 02/02/2021 08:00 Y NJ
0001 02/02/2021 09:00 N UT
0001 02/02/2021 10:00 Y AZ
0001 02/02/2021 11:00 Y CA
0002 02/02/2021 08:00 Y NJ
0002 02/02/2021 09:00 N UT
0002 02/02/2021 10:00 Y AZ
0002 02/02/2021 11:00 Y CA
1001 02/02/2021 08:00 Y NJ
1002 02/02/2021 08:00 Y NJ
1003 02/02/2021 08:00 Y NJ
1010 02/02/2021 08:00 Y NJ
答え2
可能であれば、CSV認識ツールを使用してCSVファイルを処理することをお勧めします。このawkスクリプトは非常に単純な(「一般」)CSVに対して機能しますが、CSVに引用符があると、awkでの解析に問題が発生します。
GoCSV命令型コードを書かずにデータを効果的に制御できる多くのコマンドを含むCSV認識ツール。必要なものを一連のステップで宣言します(パイプライン可能)。
#!/bin/sh
# Isolate 1st row from table1
gocsv head -n 1 table1.csv > first_row.csv
# Add a shared key to first_row and table2 (in the new column 'Key')
gocsv add -n Key -t '_key_' first_row.csv > first_row_keyed.csv
gocsv add -n Key -t '_key_' table2.csv > table2_keyed.csv
# Left-join first_row to table2, by matching on the shared key (the Key column)
gocsv join -c Key table2_keyed.csv first_row_keyed.csv > table2_joined.csv
# Select (cut) the first 'Item ID' (column 1) and the other 3 fields that were joined from first_row
gocsv select -c 1,'Time','Available','Location' table2_joined.csv > table2_cut.csv
# Stack table1 then new version of table2
gocsv stack table1.csv table2_cut.csv > final.csv
サンプルデータをシミュレートした。
1番テーブル
Item ID,Time,Available,Location
0001,02/02/2021 08:00,Y,NJ
0001,02/02/2021 09:00,N,UT
0001,02/02/2021 10:00,Y,AZ
0001,02/02/2021 11:00,Y,CA
0002,02/02/2021 08:00,Y,NJ
0002,02/02/2021 09:00,N,UT
0002,02/02/2021 10:00,Y,AZ
0002,02/02/2021 11:00,Y,CA
表2
Item ID,Item_Name,Item_Aux_ID,Item_Aux_name
1001,IT_1,3323,IT_Aux_1
1002,IT_2,3325,IT_Aux_2
1003,IT_3,3328,IT_Aux_3
1010,IT_4,3333,IT_Aux_4
これら2つのファイルに対してスクリプトを実行すると、次の結果が表示されます。最終.csv:
Item ID,Time,Available,Location
0001,02/02/2021 08:00,Y,NJ
0001,02/02/2021 09:00,N,UT
0001,02/02/2021 10:00,Y,AZ
0001,02/02/2021 11:00,Y,CA
0002,02/02/2021 08:00,Y,NJ
0002,02/02/2021 09:00,N,UT
0002,02/02/2021 10:00,Y,AZ
0002,02/02/2021 11:00,Y,CA
1001,02/02/2021 08:00,Y,NJ
1002,02/02/2021 08:00,Y,NJ
1003,02/02/2021 08:00,Y,NJ
1010,02/02/2021 08:00,Y,NJ