無効な3GB .jsonファイルから特定のコンテンツを含む.txtファイルを生成する

Question 1

このgrepコマンドを使用して、目的のパターンを一致させ、重複sort項目をフィルタリングできます。入力ファイルが次input.jsonのような場合、出力は次のようになりますusernames.txt。

grep -P -o '(?<="username":")[^"]*' input.json | sort -u > usernames.txt

それを破壊する:

パイピングでsortユーザー名をアルファベット順に並べ替えます。オプションは、-u「一意の項目のみ」、つまり重複項目がないことを意味します。

注：これらはすべて、一致するパターンがファイルの他の場所に表示されない（または可能性が低い）、JSON自体の破損によって一致が失敗しないと仮定します（その場合もあります）。ファイルがどのように破損しているのかわからない。）

編集する： 行が長すぎるという苦情が頻繁にあり、何らかのgrep理由sed -e 's/,/,\n/'で実際には機能しないため、このsplitコマンドはファイルをより管理しやすい塊に分割するために使用されます。

Answer

このgrepコマンドを使用して、目的のパターンを一致させ、重複sort項目をフィルタリングできます。入力ファイルが次input.jsonのような場合、出力は次のようになりますusernames.txt。

grep -P -o '(?<="username":")[^"]*' input.json | sort -u > usernames.txt

それを破壊する:

パイピングでsortユーザー名をアルファベット順に並べ替えます。オプションは、-u「一意の項目のみ」、つまり重複項目がないことを意味します。

注：これらはすべて、一致するパターンがファイルの他の場所に表示されない（または可能性が低い）、JSON自体の破損によって一致が失敗しないと仮定します（その場合もあります）。ファイルがどのように破損しているのかわからない。）

編集する： 行が長すぎるという苦情が頻繁にあり、何らかのgrep理由sed -e 's/,/,\n/'で実際には機能しないため、このsplitコマンドはファイルをより管理しやすい塊に分割するために使用されます。

Question 2

壊れる非常に長いJSONレコードがあるようですgrep -P。代替ソリューションは次のとおりです。

grep -o '"username":"[^"]*' users.json \
| cut -d '"' -f 4 \
| uniq \
| sort -u \
> usernames.txt

ここから、grep「ユーザー名：値」フィールド全体を抽出し、cut値を抽出してuniq | sort -uユーザー名を一意にします。

uniq必要ありません。 3GBファイルの場合は、連続して重複する数百万の名前のリストを取得したいと思います。役に立たないように見えることは、仕事の負担をuniq |軽減し、作業をより速く進めることができます。sortそうでなければ病気ではありません。

Answer

壊れる非常に長いJSONレコードがあるようですgrep -P。代替ソリューションは次のとおりです。

grep -o '"username":"[^"]*' users.json \
| cut -d '"' -f 4 \
| uniq \
| sort -u \
> usernames.txt

ここから、grep「ユーザー名：値」フィールド全体を抽出し、cut値を抽出してuniq | sort -uユーザー名を一意にします。

uniq必要ありません。 3GBファイルの場合は、連続して重複する数百万の名前のリストを取得したいと思います。役に立たないように見えることは、仕事の負担をuniq |軽減し、作業をより速く進めることができます。sortそうでなければ病気ではありません。

関連情報