大容量CSVファイルのインデックスを再生成します。

Question 1

端末の近くでテストしませんが、しばしば見落とされるコマンドnlはどうですか？それは次のとおりです。

cut -f 2 -d , original.csv | nl -w 1 -p -s , > numbered.csv

Answer

端末の近くでテストしませんが、しばしば見落とされるコマンドnlはどうですか？それは次のとおりです。

cut -f 2 -d , original.csv | nl -w 1 -p -s , > numbered.csv

Question 2

これにはいくつかの方法がありますが、cut上記の解決策ほど速い方法はありません。nl

アッ

awk -F, '{$1=NR;print $1","$2;}' file.csv > newfile.csv

真珠

perl -pe 's/[^,]+/$./' file.csv > newfile.csv

または

perl -F, -ane '$F[0]=$.; print join ",", @F' file.csv

シェル（ただし、200Gファイルには時間がかかりますのでお勧めできません）

i=1; while IFS=, read foo num; do 
        printf "%d,%s\n" $((i++)) $num; 
done < file.csv > newfile.csv

上記の解決策は速度順に並べられた。私のラップトップと40Mファイルでテストしましたが、結果は（平均10回実行）2.2282（awk）、2.4555（1st perl）、3.1825秒（2nd perl）で、シェルは驚きました。 48.6035秒かかりました。すでに持っている非常に賢いcutソリューションはnl0.6078秒で約4倍速いです。

Answer

これにはいくつかの方法がありますが、cut上記の解決策ほど速い方法はありません。nl

アッ

awk -F, '{$1=NR;print $1","$2;}' file.csv > newfile.csv

真珠

perl -pe 's/[^,]+/$./' file.csv > newfile.csv

または

perl -F, -ane '$F[0]=$.; print join ",", @F' file.csv

シェル（ただし、200Gファイルには時間がかかりますのでお勧めできません）

i=1; while IFS=, read foo num; do 
        printf "%d,%s\n" $((i++)) $num; 
done < file.csv > newfile.csv

上記の解決策は速度順に並べられた。私のラップトップと40Mファイルでテストしましたが、結果は（平均10回実行）2.2282（awk）、2.4555（1st perl）、3.1825秒（2nd perl）で、シェルは驚きました。 48.6035秒かかりました。すでに持っている非常に賢いcutソリューションはnl0.6078秒で約4倍速いです。

大容量CSVファイルのインデックスを再生成します。

答え1

答え2

関連情報