行の列数に基づいてCSVをソートしますか？

Question 1

これを追加したいカンマ区切りと考えてください-F,。
例えばawk -F, '$(NF+1)=NF' file

行末に数字を追加

 awk '$(NF+1)=NF' file

入力する

1
1 2 3
1 2
1 2 3 4 5 6
a b

出力

1 1
1 2 3 3
1 2 2
1 2 3 4 5 6 6
a b 2

行の並べ替え

 awk '{a[NF]=a[NF]?a[NF]"\n"$0:$0;x=x<NF?NF:x}END{for(i=1;i<=x;i++)if(i in a)print a[i]}'

入力する

1
1 2 3
1 2
1 2 3 4 5 6
a b

出力

1
1 2
a b
1 2 3
1 2 3 4 5 6

別のファイルに印刷

たとえば、フィールドの長さ4を使用して134または希望の値に変更します。

 awk '{print > (NF>=4?"LargeFile.txt":"SmallFile.txt")}' file

入力する

1
1 2 3
1 2
1 2 3 4 5 6
a b

出力

LargeFile.txt

 1 2 3 4 5 6

SmallFile.txt

Answer

これを追加したいカンマ区切りと考えてください-F,。
例えばawk -F, '$(NF+1)=NF' file

行末に数字を追加

 awk '$(NF+1)=NF' file

入力する

1
1 2 3
1 2
1 2 3 4 5 6
a b

出力

1 1
1 2 3 3
1 2 2
1 2 3 4 5 6 6
a b 2

行の並べ替え

 awk '{a[NF]=a[NF]?a[NF]"\n"$0:$0;x=x<NF?NF:x}END{for(i=1;i<=x;i++)if(i in a)print a[i]}'

入力する

1
1 2 3
1 2
1 2 3 4 5 6
a b

出力

1
1 2
a b
1 2 3
1 2 3 4 5 6

別のファイルに印刷

たとえば、フィールドの長さ4を使用して134または希望の値に変更します。

 awk '{print > (NF>=4?"LargeFile.txt":"SmallFile.txt")}' file

入力する

1
1 2 3
1 2
1 2 3 4 5 6
a b

出力

LargeFile.txt

 1 2 3 4 5 6

SmallFile.txt

Question 2

@terdonの答えに似ていますが、次のものが含まれていますsed。

{ seq -s, 10; seq -s, 5; seq -s, 15; } | 
tee - -

これは私の情報ファイルです。次のようになります。

1,2,3,4,5,6,7,8,9,10
1,2,3,4,5,6,7,8,9,10
1,2,3,4,5,6,7,8,9,10
1,2,3,4,5
1,2,3,4,5
1,2,3,4,5
1,2,3,4,5,6,7,8,9,10,11,12,13,14,15
1,2,3,4,5,6,7,8,9,10,11,12,13,14,15
1,2,3,4,5,6,7,8,9,10,11,12,13,14,15

その後、次のようにできます。

sed 'h;s/[^,]*//g;G;s/\n/ /' | sort -t\  -nk1,1

...これは...

,,,, 1,2,3,4,5
,,,, 1,2,3,4,5
,,,, 1,2,3,4,5
,,,,,,,,, 1,2,3,4,5,6,7,8,9,10
,,,,,,,,, 1,2,3,4,5,6,7,8,9,10
,,,,,,,,, 1,2,3,4,5,6,7,8,9,10
,,,,,,,,,,,,,, 1,2,3,4,5,6,7,8,9,10,11,12,13,14,15
,,,,,,,,,,,,,, 1,2,3,4,5,6,7,8,9,10,11,12,13,14,15
,,,,,,,,,,,,,, 1,2,3,4,5,6,7,8,9,10,11,12,13,14,15

数字はありませんが、数字は確実だと思います。前のカンマを削除するには、次のようにします。

PIPELINE | sed 's/,* //'

...これは...

1,2,3,4,5
1,2,3,4,5
1,2,3,4,5
1,2,3,4,5,6,7,8,9,10
1,2,3,4,5,6,7,8,9,10
1,2,3,4,5,6,7,8,9,10
1,2,3,4,5,6,7,8,9,10,11,12,13,14,15
1,2,3,4,5,6,7,8,9,10,11,12,13,14,15
1,2,3,4,5,6,7,8,9,10,11,12,13,14,15

これまでの最も控えめな答えではないかもしれませんが、私がこの投稿を書くことにした主な理由は、カンマ区切りの134項目を含む行を別のファイルに書きたいと言っていたからです。偶然にもこれは簡単なことですsed。たとえば、上記のシーケンスの10個のフィールドを含む行を次のように作成するとしますfile2。

PIPELINE | sed '/^\([^,]*,[^,]*\)\{9\}$/w file2'
cat file2

出力

1,2,3,4,5,6,7,8,9,10
1,2,3,4,5,6,7,8,9,10
1,2,3,4,5,6,7,8,9,10

\{9\}上記の方法はパターンの9つのインスタンスを指定するために使用しました。つまり、9つの区切り文字を10の区切りフィールドにします。範囲は次のように簡単に処理できます。

PIPELINE | sed '/^\([^,]*,[^,]*\)\{4,9\}$/w file2'
cat file2

出力

1,2,3,4,5
1,2,3,4,5
1,2,3,4,5
1,2,3,4,5,6,7,8,9,10
1,2,3,4,5,6,7,8,9,10
1,2,3,4,5,6,7,8,9,10

Answer

@terdonの答えに似ていますが、次のものが含まれていますsed。

{ seq -s, 10; seq -s, 5; seq -s, 15; } | 
tee - -

これは私の情報ファイルです。次のようになります。

1,2,3,4,5,6,7,8,9,10
1,2,3,4,5,6,7,8,9,10
1,2,3,4,5,6,7,8,9,10
1,2,3,4,5
1,2,3,4,5
1,2,3,4,5
1,2,3,4,5,6,7,8,9,10,11,12,13,14,15
1,2,3,4,5,6,7,8,9,10,11,12,13,14,15
1,2,3,4,5,6,7,8,9,10,11,12,13,14,15

その後、次のようにできます。

sed 'h;s/[^,]*//g;G;s/\n/ /' | sort -t\  -nk1,1

...これは...

,,,, 1,2,3,4,5
,,,, 1,2,3,4,5
,,,, 1,2,3,4,5
,,,,,,,,, 1,2,3,4,5,6,7,8,9,10
,,,,,,,,, 1,2,3,4,5,6,7,8,9,10
,,,,,,,,, 1,2,3,4,5,6,7,8,9,10
,,,,,,,,,,,,,, 1,2,3,4,5,6,7,8,9,10,11,12,13,14,15
,,,,,,,,,,,,,, 1,2,3,4,5,6,7,8,9,10,11,12,13,14,15
,,,,,,,,,,,,,, 1,2,3,4,5,6,7,8,9,10,11,12,13,14,15

数字はありませんが、数字は確実だと思います。前のカンマを削除するには、次のようにします。

PIPELINE | sed 's/,* //'

...これは...

1,2,3,4,5
1,2,3,4,5
1,2,3,4,5
1,2,3,4,5,6,7,8,9,10
1,2,3,4,5,6,7,8,9,10
1,2,3,4,5,6,7,8,9,10
1,2,3,4,5,6,7,8,9,10,11,12,13,14,15
1,2,3,4,5,6,7,8,9,10,11,12,13,14,15
1,2,3,4,5,6,7,8,9,10,11,12,13,14,15

これまでの最も控えめな答えではないかもしれませんが、私がこの投稿を書くことにした主な理由は、カンマ区切りの134項目を含む行を別のファイルに書きたいと言っていたからです。偶然にもこれは簡単なことですsed。たとえば、上記のシーケンスの10個のフィールドを含む行を次のように作成するとしますfile2。

PIPELINE | sed '/^\([^,]*,[^,]*\)\{9\}$/w file2'
cat file2

出力

1,2,3,4,5,6,7,8,9,10
1,2,3,4,5,6,7,8,9,10
1,2,3,4,5,6,7,8,9,10

\{9\}上記の方法はパターンの9つのインスタンスを指定するために使用しました。つまり、9つの区切り文字を10の区切りフィールドにします。範囲は次のように簡単に処理できます。

PIPELINE | sed '/^\([^,]*,[^,]*\)\{4,9\}$/w file2'
cat file2

出力

1,2,3,4,5
1,2,3,4,5
1,2,3,4,5
1,2,3,4,5,6,7,8,9,10
1,2,3,4,5,6,7,8,9,10
1,2,3,4,5,6,7,8,9,10

Question 3

次に、各行の先頭に（カンマで区切られた）フィールドの数を追加し、行を印刷してすべてを並べ替えます。

awk -F"," '{print NF,$0}' *csv | sort -nk1,1

これは-n数値順に並べ替え、-k1,1最初のフィールドでのみ並べ替えるようにします。ソートされたフィールドの数を削除するには、次のようにします。

awk -F"," 'print NF,$0' *csv | sort -nk1,1 | cut -d ' ' -f 2-

ノート：実際のデータによっては簡単に壊れることがあります。フィールドにカンマを含めることはできますか？複数行にまたがるフィールドを持つことはできますか？これは問題を解決できない非常に素朴なアプローチです。

Answer

次に、各行の先頭に（カンマで区切られた）フィールドの数を追加し、行を印刷してすべてを並べ替えます。

awk -F"," '{print NF,$0}' *csv | sort -nk1,1

これは-n数値順に並べ替え、-k1,1最初のフィールドでのみ並べ替えるようにします。ソートされたフィールドの数を削除するには、次のようにします。

awk -F"," 'print NF,$0' *csv | sort -nk1,1 | cut -d ' ' -f 2-

ノート：実際のデータによっては簡単に壊れることがあります。フィールドにカンマを含めることはできますか？複数行にまたがるフィールドを持つことはできますか？これは問題を解決できない非常に素朴なアプローチです。

行の列数に基づいてCSVをソートしますか？

答え1

行末に数字を追加

行の並べ替え

別のファイルに印刷

答え2

出力

出力

答え3

関連情報