11 GBの単語リストテキストファイルから特定の行と重複エントリを削除します。

Question 1

開発のためにpv。テキストのみを削除するため、一時ファイルは必要ありません。ファイルを上書きしてください。ファイルがすでにソートされている場合は、必要ではなくsort -u単にソートされますuniq。

pv file | {
  uniq | grep -v '^077'
  perl -e 'truncate STDOUT, tell STDOUT'
} 1<> file

grepPerl行は書き込みが終わるとファイルを切り捨てます。

ファイルを正しい場所に書き込むので、間違えれば元に戻せないことに注意してください。

Answer

開発のためにpv。テキストのみを削除するため、一時ファイルは必要ありません。ファイルを上書きしてください。ファイルがすでにソートされている場合は、必要ではなくsort -u単にソートされますuniq。

pv file | {
  uniq | grep -v '^077'
  perl -e 'truncate STDOUT, tell STDOUT'
} 1<> file

grepPerl行は書き込みが終わるとファイルを切り捨てます。

ファイルを正しい場所に書き込むので、間違えれば元に戻せないことに注意してください。

Question 2

sed/awk/shell スクリプトの複雑さを大幅に増やさず（したがって全体のプロセス速度を遅くせず）、ETAや進行状況を表示できるかどうかはわかりません。できるだけ早くしたい場合はお試しくださいcat source_file | uniq | sed -n -e '/^077/!p' > dest_file。おおよその進行状況を表示するには、dest_fileバックグラウンドまたは他の端末でコマンドを実行して、コマンドのサイズが大きくなることを確認できます。

Answer

sed/awk/shell スクリプトの複雑さを大幅に増やさず（したがって全体のプロセス速度を遅くせず）、ETAや進行状況を表示できるかどうかはわかりません。できるだけ早くしたい場合はお試しくださいcat source_file | uniq | sed -n -e '/^077/!p' > dest_file。おおよその進行状況を表示するには、dest_fileバックグラウンドまたは他の端末でコマンドを実行して、コマンドのサイズが大きくなることを確認できます。

Question 3

awk '!a[$0]++' "filename" > /tmp/dup
mv -f /tmp/dup "filename"

Answer

awk '!a[$0]++' "filename" > /tmp/dup
mv -f /tmp/dup "filename"

11 GBの単語リストテキストファイルから特定の行と重複エントリを削除します。

答え1

答え2

答え3

関連情報