Google BigQueryにデータをアップロードできるように、ベンダーから受け取ったcsvファイルの日付形式を非表示にします。 Google Cloud Consoleの仮想マシンを使用しています。
データは次のとおりです。
Name ,Phone ,SalesDate ,Venue ,NoOfUnits ,ModifiedDatae
Victor ,5555555 ,12/6/2013 10:26:32 AM , Colosseum ,1 ,12/8/2013 1:05:45 PM
次の形式で作成しようとしています。
Name ,Phone ,SalesDate ,Venue ,NoOfUnits ,ModifiedDatae
Victor ,5555555 ,2013-12-6 10:26:32 ,Colosseum,1 ,2013-12-8 13:05:45
sedやawkが使えることを知っています。
答え1
私はあなたがしたいことをするPythonスクリプトとBashスクリプトを書いています。
Pythonソリューション
以下は、質問で指定されているように、すべての時間フィールドをある形式から別の形式に変換するPythonスクリプトです。
#!/usr/bin/env python3
# -*- coding: ascii -*-
"""reformat_time.py
Change date format from:
MM/DD/YYYY HH:MM:SS am/pm
to:
YYYY-MM-DD HH:MM:SS
in a CSV file
"""
import csv
from datetime import date
from datetime import datetime
import sys
# Open the file (taken as a command-line argument)
with open(sys.argv[1], 'r') as csvfile:
# Parse the CSV data
csvreader = csv.reader(csvfile, delimiter=',', quotechar='"')
# Iterate over the rows
for row in csvreader:
# Iterate over the columns of each row
for index, col in enumerate(row):
# Try to parse and convert each column
try:
_datetime = datetime.strptime(col, "%m/%d/%Y %H:%M:%S %p")
newcol = _datetime.strftime("%Y-%m-%d %H:%M:%S")
# If parsing fails, leave the column unchanged
except ValueError:
newcol = col
# Update the column value
row[index] = newcol
# Output the updated row
print(','.join(row))
CSVファイルが呼び出され、data.csv
次の行(投稿から取得)が含まれているとします。
Victor,5555555,12/6/2013 10:26:32 AM,Colosseum,1,12/8/2013 1:05:45 PM
その後、次のようにスクリプトを実行できます。
python reformat_time.py data.csv
これにより、次のような出力が生成されます。
Victor,5555555,2013-12-06 10:26:32,Colosseum,1,2013-12-08 01:05:45
カンクンソリューション
date
以下は(ほぼ)同じ効果を持つGNUユーティリティを使用するBashスクリプトです。
#!/bin/bash
# reformat_time.sh
# Loop over the lines of the file
while read -r line; do
# Extract the field values for each row
Name="$(echo ${line} | cut -d, -f1)";
Phone="$(echo ${line} | cut -d, -f2)";
SalesDate="$(echo ${line} | cut -d, -f3)";
Venue="$(echo ${line} | cut -d, -f4)";
NoOfUnits="$(echo ${line} | cut -d, -f5)";
ModifiedDate="$(echo ${line} | cut -d, -f6)";
# Convert the time-fields from the old format to the new format
NewSalesDate="$(date -d "${SalesDate}" "+%Y-%m-%d %H:%M:%S")";
NewModifiedDate="$(date -d "${ModifiedDate}" "+%Y-%m-%d %H:%M:%S")";
# Output the updated row
echo "${Name},${Phone},${NewSalesDate},${Venue},${NoOfUnits},${NewModifiedDate}";
done < "$1"
次のように実行できます。
bash reformat_time.sh data.csv
次の出力が生成されます。
Victor ,5555555 ,2013-12-06 10:26:32, Colosseum ,1 ,2013-12-08 13:05:45
Bashスクリプトははるかに脆弱です。エラー処理は行われず、3番目と6番目のフィールドにのみ影響します。また、上記のPythonスクリプトは、そうでないフィールド区切り文字の周りのスペースを保持します。
答え2
私はLinuxを初めて使用するときに日付形式を隠そうとします。
date
スイッチを試してください-d
。
-d, --date=文字列 「今」ではなくSTRINGで説明されている時間を表示
次に、必要な方法で出力形式を指定します。
例:
date -d "12/6/2013 10:26:32 AM" "+%F %H:%M:%S"
2013-12-06 10:26:32
man date
フォーマットの手順については、(参照FORMAT
セクション)を参照してください。
答え3
このawkを試すことができます
awk -F, '
function cvtdate( dat, array) {
split(dat,array,"/| |:")
array[4]=array[7]=="PM"?(array[4]+12):array[4]
return array[3]"-"array[1]"-"array[2]" "array[4]":"array[5]":"array[6]
}
{
$3=cvtdate($3)
$6=cvtdate($6)
}1' OFS=',' infile
答え4
もう一つの可能なawk oneliner:
awk -F, '{ a[3];a[6] ; for (i in a) "date -d \""$i"\" \"+%Y-%m-%d %H:%M:%S\"" |& getline $i }1' OFS=, filename