ワード周波数 gawk メモリリーク

Question

したがって、役に立ついくつかのことがありますが、これを行うための最も重要なことはsort | uniq -cgawkの代わりにグレゴリー・ニスベットによると。

私も結局使うことになった@dave_thompson_085でコメントについてtr -sc '[:alpha:]' '\n'。このフラグは反復を結合します。つまり、空行を削除して探している文字セットを逆にする-s必要はありません。-cの副作用は、-cセットではなく1つの代替文字しか使用できないことです。 Daveにも感謝しますgrepと正確なラインマッチングに関する質問（-x）。私がこのコメントに投票する評判があれば、そうしたことでしょう。

結局、XMLエンティティ（"）を削除し、html（重複<ref />）を削除するためにいくつかの追加コードを使用する必要がありました。のgetArticleText新しいsedコマンドはです| sed -e 's/"/"/g' -e 's/</</g' -e 's/>/>/g' -e 's/&/&/g' -e 's/<.*>//g'。各式（-elinkコマンド）は異なるHTMLエンティティを処理します。私はもう少し完全なオプションを試しました（例：Perlを使用）。スタックオーバーフロー）が、私の場合は、コンピュータ関連の問題のために動作しません。最終的なスクリプトは以下にあります。私の単語ライブラリ。

私のコンピュータでスクリプトを完了するのに3時間20分かかりましたが、このドライブも数年前の6コアAMDドライブでした。お客様のマイルは異なる場合がありますが、これで十分でした。

@Gregory Nisbetまたは@dave_thompson_085が自分の回答を投稿したい場合は、投稿できるようにこの回答を受け入れません。

Answer 1

したがって、役に立ついくつかのことがありますが、これを行うための最も重要なことはsort | uniq -cgawkの代わりにグレゴリー・ニスベットによると。

私も結局使うことになった@dave_thompson_085でコメントについてtr -sc '[:alpha:]' '\n'。このフラグは反復を結合します。つまり、空行を削除して探している文字セットを逆にする-s必要はありません。-cの副作用は、-cセットではなく1つの代替文字しか使用できないことです。 Daveにも感謝しますgrepと正確なラインマッチングに関する質問（-x）。私がこのコメントに投票する評判があれば、そうしたことでしょう。

結局、XMLエンティティ（"）を削除し、html（重複<ref />）を削除するためにいくつかの追加コードを使用する必要がありました。のgetArticleText新しいsedコマンドはです| sed -e 's/"/"/g' -e 's/</</g' -e 's/>/>/g' -e 's/&/&/g' -e 's/<.*>//g'。各式（-elinkコマンド）は異なるHTMLエンティティを処理します。私はもう少し完全なオプションを試しました（例：Perlを使用）。スタックオーバーフロー）が、私の場合は、コンピュータ関連の問題のために動作しません。最終的なスクリプトは以下にあります。私の単語ライブラリ。

私のコンピュータでスクリプトを完了するのに3時間20分かかりましたが、このドライブも数年前の6コアAMDドライブでした。お客様のマイルは異なる場合がありますが、これで十分でした。

@Gregory Nisbetまたは@dave_thompson_085が自分の回答を投稿したい場合は、投稿できるようにこの回答を受け入れません。

ワード周波数 gawk メモリリーク

答え1

関連情報