並べ替えをカスタマイズし、タブで区切られたファイルの複数の列から下線付きの二重引用符を削除します。

並べ替えをカスタマイズし、タブで区切られたファイルの複数の列から下線付きの二重引用符を削除します。


トピック列の順序によるカスタムソートは、数学、英語、科学でなければなりません。

次のコマンドを使用する場合

awk -F',' '{if (NR!=1) {print $2,$3,$5,$4}}' myfile.csv

私のmyfile.csvこうなりましたが、他に欲しかったです。

"101"    "Anna"    "Maths"    "V"
"102"    "Bob"    "Maths"    "V"
"103"    "Charles"    "Science"    "VI"
"104"    "Darwin"    "Science"    "VI"
"105"    "Eva"    "English"    "VII"

科目の列の順序に応じて、ソートは数学、英語、科学でなければなりません。

次のように二重引用符を削除し、下線で連結します。

101_Anna_Maths_V
102_Bob_Maths_V
105_Eva_English_VII
103_Charles_Science_VI
104_Darwin_Science_VI

ソースファイル:出力cat myfile.csv

Sl.No,RollNo,Names,Class,Subject
1,101,Anna,V,Maths
2,102,Bob,V,Maths
3,103,Charles,VI,Science
4,104,Darwin,VI,Science
5,105,Eva,VII,English

答え1

元のコマンドは次のとおりです。

awk -F',' '{if (NR!=1) {print $2,$3,$5,$4}}' myfile.csv

あなたの命令はawk慣用的に書かれています。

awk -F',' 'NR > 1 { print $2, $3, $5, $4 }' myfile.csv

各入力行から二重引用符をすべて削除するには、上記のコマンドを修正してくださいNR > 1

awk -F',' 'NR > 1 { gsub(/"/, ""); print $2, $3, $5, $4 }' myfile.csv

上記のコマンドは、_出力フィールド区切り文字(OFS)を使用して出力するように変更されました。

awk -F',' -vOFS='_' 'NR > 1 { gsub(/"/, ""); print $2, $3, $5, $4 }' myfile.csv

答え2

質問が修正されたので、sed与えられた入力に対して次の解決策を使用して次のようにします。

  1. スライドフィールド#4と#5
  2. 最初のフィールドを削除
  3. カンマを下線に置き換える
  4. 最初の行をタイトルにスキップ
sed -r '2,$s/^[^,]*,// ; 2,$s/^([^,]*,[^,]*)(,[^,]*)(.*)/\1\3\2/ ; 2,$s/,/_/g'

使用sed

sed 's/"//g;s/[[:space:]]\+/_/g;/^$/d' infile
  • s/"//gこれにより、すべての引用符が削除されます"
  • [[:space:]]\+これは1つ以上のスペースを単一の下線で置き換えます_
  • /^$/dこれにより空白行が削除されます。空行がない場合は、コマンドから削除できます。または、/^[[:space:]]*$/dスペース/タブ/空白行のみを削除するように変更します。

実装がそれをサポートしていない場合は、\+同等の標準に置き換えてください。\{1,\}sed

答え3

牛に似た一種の栄養アッカンマ区切りの入力ファイルに対する解決策(あなたの意見に従う-F','):

awk -v FPAT='[^",[:space:]]+' 'NR>1{ for(i=1;i<=NF;i++) printf "%s%s",$i,(i<NF)?OFS:ORS }' OFS='_' myfile.csv

出力:

01_Anna_Maths_V
102_Bob_Maths_V
103_Charles_Science_VI
104_Darwin_Science_VI
105_Eva_Maths_VII

関連情報