非常に大きなCSVファイルがあります。,
sed(または同様のもの)を使用して最後のエントリをどのように削除できますか?
...
[11911,0,"BUILDER","2014-10-15","BUILDER",0,0],
[11912,0,"BUILDER","2014-10-15","BUILDER",0,0],
[11913,0,"BUILDER","2014-10-15","BUILDER",0,0],
]
希望の出力
...
[11911,0,"BUILDER","2014-10-15","BUILDER",0,0],
[11912,0,"BUILDER","2014-10-15","BUILDER",0,0],
[11913,0,"BUILDER","2014-10-15","BUILDER",0,0]
]
次の sed コマンドは各行の最後のエントリを削除しますが、ファイルごとに削除したいと思います。
sed -e 's/,$//' foo.csv
これも機能しません
sed '$s/,//' foo.csv
答え1
使用awk
カンマが常に2行目の終わりにある場合:
$ awk 'NR>2{print a;} {a=b; b=$0} END{sub(/,$/, "", a); print a;print b;}' input
[11911,0,"BUILDER","2014-10-15","BUILDER",0,0],
[11912,0,"BUILDER","2014-10-15","BUILDER",0,0],
[11913,0,"BUILDER","2014-10-15","BUILDER",0,0]
]
使用awk
とbash
$ awk -v "line=$(($(wc -l <input)-1))" 'NR==line{sub(/,$/, "")} 1' input
[11911,0,"BUILDER","2014-10-15","BUILDER",0,0],
[11912,0,"BUILDER","2014-10-15","BUILDER",0,0],
[11913,0,"BUILDER","2014-10-15","BUILDER",0,0]
]
使用sed
$ sed 'x;${s/,$//;p;x;};1d' input
[11911,0,"BUILDER","2014-10-15","BUILDER",0,0],
[11912,0,"BUILDER","2014-10-15","BUILDER",0,0],
[11913,0,"BUILDER","2014-10-15","BUILDER",0,0]
]
OSX やその他の BSD プラットフォームの場合は、以下を試してください。
sed -e x -e '$ {s/,$//;p;x;}' -e 1d input
使用bash
while IFS= read -r line
do
[ "$a" ] && printf "%s\n" "$a"
a=$b
b=$line
done <input
printf "%s\n" "${a%,}"
printf "%s\n" "$b"
答え2
単に次のPerlの1行のコマンドを試してみてください。
perl -00pe 's/,(?!.*,)//s' file
説明する:
,
カンマに一致します。(?!.*,)
否定的な予測は、一致するコンマの後にコンマがないと主張します。したがって、最後のコンマと一致します。s
最も重要なのは、s
ドットが改行文字と一致することを可能にするDOTALL修飾子です。
答え3
lcomma() { sed '
$x;$G;/\(.*\),/!H;//!{$!d
}; $!x;$s//\1/;s/^\n//'
}
これは、入力ファイルに最後に表示されたaのみを削除する必要があり、aが発生しないファイルは,
印刷され続けます。,
デフォルトでは、カンマを含まない一連の行をバッファリングします。
カンマに遭遇すると、現在の行バッファを保持バッファに置き換え、このようにして最後のコンマ以降に発生したすべての行を同時に印刷します。そして保持バッファを解放します。
私はちょうど私の履歴ファイルを見て、次のことを見つけました:
lmatch(){ set "USAGE:\
lmatch /BRE [-(((s|-sub) BRE)|(r|-ref)) REPL [-(f|-flag) FLAG]*]*
" "${1%"${1#?}"}" "$@"
eval "${ZSH_VERSION:+emulate sh}"; eval '
sed " 1x; \\$3$2!{1!H;\$!d
}; \\$3$2{x;1!p;\$!d;x
}; \\$3$2!x;\\$3$2!b'"
$( unset h;i=3 p=:-:shfr e='\033[' m=$(($#+1)) f=OPTERR
[ -t 2 ] && f=$e\2K$e'1;41;17m}\r${h-'$f$e\0m
f='\${$m?"\"${h-'$f':\t\${$i$e\n}\$1\""}\\c' e=} _o=
o(){ IFS=\ ;getopts $p a "$1" &&
[ -n "${a#[?:]}" ] &&
o=${a#-}${OPTARG-${1#-?}} ||
! eval "o=$f;o=\${o%%*\{$m\}*}"
}; a(){ case ${a#[!-]}$o in (?|-*) a=;;esac; o=
set $* "${3-$2$}{$((i+=!${#a}))${a:+#-?}}"\
${3+$2 "{$((i+=1))$e"} $2
IFS=$; _o=${_o%"${3+$_o} "*}$*\
}; while eval "o \"\${$((i+=(OPTIND=1)))}\""
do case ${o#[!$a]} in
(s*|ub) a s 2 '' ;;
(r*|ef) a s 2 ;;
(f*|lag) a ;;
(h*|elp) h= o; break ;;
esac; done; set -f; printf "\t%b\n\t" $o $_o
)\"";}
実際には悪くありません。はい、使用しますeval
が、引数への数値参照を除いて何も渡しません。sed
最後の一致を処理するためのランダムスクリプトを作成します。お見せします:
printf "%d\" %d' %d\" %d'\n" $(seq 5 5 200) |
tee /dev/fd/2 |
lmatch d^.0 \ #all re's delimit w/ d now
-r '&&&&' \ #-r or --ref like: '...s//$ref/...'
--sub \' sq \ #-s or --sub like: '...s/$arg1/$arg2/...'
--flag 4 \ #-f or --flag appended to last -r or -s
-s\" \\dq \ #short opts can be '-s $arg1 $arg2' or '-r$arg1'
-fg #tacked on so: '...s/"/dq/g...'
以下をstderrに印刷します。以下はlmatch
入力コピーです。
5" 10' 15" 20'
25" 30' 35" 40'
45" 50' 55" 60'
65" 70' 75" 80'
85" 90' 95" 100'
105" 110' 115" 120'
125" 130' 135" 140'
145" 150' 155" 160'
165" 170' 175" 180'
185" 190' 195" 200'
関数のeval
ed サブシェルはすべての引数を 1 回繰り返します。繰り返しながら、各スイッチのコンテキストに従ってカウンタを適切に繰り返し、次の繰り返しのために多くのパラメータをスキップします。その時点から、各引数に対して次のいずれかの操作を行います。
- 各オプションについて、オプションパーサーは、処理された各引数の値に基づいて引数の数の増分として.allocation
$a
に追加されます。次の 2 つの値のいずれかが割り当てられます。$o
$a
$i
$a
a=$((i+=1))
- このオプションは、短いオプションに引数が追加されない場合、またはオプションが長いオプションの場合に割り当てられます。a=$i#-?
- オプションが短いオプションの場合は、このオプションを割り当てます。する引数を追加します。a=\${$a}${1:+$d\${$(($1))\}}
- 初期割り当てに関係なく、$a
値は常に中括弧で囲まれ、特定の-s
状況では$i
時々1つ追加され、区切りフィールドが追加されます。
その結果、不明なeval
数字を含む文字列は渡されません。各コマンドライン引数は数値引数番号として参照されます。最初の引数の最初の文字から取得された区切り文字も、このときエスケープされていない文字を使用する必要がある唯一のケースです。デフォルトでは、この関数はマクロジェネレータです。引数の値を特別な方法で解釈しませんsed
。(もちろんそうです)これはスクリプトを解析するときに簡単に処理されます。代わりに、パラメータを実行可能なスクリプトに賢明に配置します。
以下は、機能している関数のいくつかのデバッグ出力です。
... sed " 1x;\\$2$1!{1!H;\$!d
}; \\$2$1{x;1!p;\$!d;x
}; \\$2$1!x;\\$2$1!b
s$1$1${4}$1
s$1${6}$1${7}$1${9}
s$1${10#-?}$1${11}$1${12#-?}
"
++ sed ' 1x;\d^.0d!{1!H;$!d
}; \d^.0d{x;1!p;$!d;x
}; \d^.0d!x;\d^.0d!b
sdd&&&&d
sd'\''dsqd4
sd"d\dqdg
'
したがって、lmatch
ファイル内の最後の一致からデータに正規表現を簡単に適用するために使用できます。上記で実行したコマンドの結果は次のとおりです。
5" 10' 15" 20'
25" 30' 35" 40'
45" 50' 55" 60'
65" 70' 75" 80'
85" 90' 95" 100'
101010105dq 110' 115dq 120'
125dq 130' 135dq 140sq
145dq 150' 155dq 160'
165dq 170' 175dq 180'
185dq 190' 195dq 200'
...ファイルinputの最後の一致サブセットを考慮して、/^.0/
次の代替項目が適用されます。
sdd&&&&d
-$match
4回交換されます。sd'dsqd4
- 最後の一致以降の行の先頭の後の4番目の一重引用符。sd"d\dqd2
- 上記と同じですが、二重引用符とグローバル変数に対応します。
したがって、lmatch
ファイルから最後のコンマを削除する方法を示すには、次のようにします。
printf "%d, %d %d, %d\n" $(seq 5 5 100) |
lmatch '/\(.*\),' -r\\1
出力:
5, 10 15, 20
25, 30 35, 40
45, 50 55, 60
65, 70 75, 80
85, 90 95 100
答え4
バラよりhttps://stackoverflow.com/questions/12390134/remove-comma-from-last-line
これは私にとって効果的です。
$cat input.txt
{"name": "secondary_ua","type":"STRING"},
{"name": "request_ip","type":"STRING"},
{"name": "cb","type":"STRING"},
$ sed '$s/,$//' < input.txt >output.txt
$cat output.txt
{"name": "secondary_ua","type":"STRING"},
{"name": "request_ip","type":"STRING"},
{"name": "cb","type":"STRING"}
最善の方法は、最後の行を削除してコンマを削除してから]文字を再度追加することです。