パイプラインの後に2つの連続OPが発生しますか、それとも一度に2つのjq OPが発生しますか？

Question 1

確認する：

最初の亜種

perl -pe 's/"characater"/"\"char" . (++$n) . "\""/ge' input.json |
jq -r '.frames.frame.lps.lp|.ncharacter,(.characters[]|[.code_ascii,.confidence]|@tsv)'

説明する

perl -pe 's/"characater"/"\"char" . (++$n) . "\""/ge' input.json
- -p- 各行を繰り返し、次のように印刷しますsed。
- -e- 1行のプログラムを入力するために使用することができます。与えられると、-ePerlは引数リストにファイル名を見つけません。
- s///ge- g: グローバル置換、e: 置換コマンドの右側を式で評価します。
- "\"char" . (++$n) . "\""- ポイントは接続に使用されます。
jq -r '.frames.frame.lps.lp|.ncharacter,(.characters[]|[.code_ascii,.confidence]|@tsv)'
- .frames.frame.lps.lp|- で作成できるので、.frames | .frame | .lps | .lp |次のように動作します。入力を受け取り、すべてのframesフィールドを選択して別のフィルタにパイプし.frame、次にすべてのframeフィールドを取得して次のフィルタにパイプする.lpsなどが続行されます。バラよりjqマニュアル、これ管路部分。
- |.ncharacter,(.characters[]|...)'-jqマニュアル、これ斑点部分：「2つのフィルタがコンマで区切られている場合、同じ入力が両方のフィルタに供給され、両方のフィルタの出力値ストリームが順番にリンクされます。は、.foo, .bar「foo」フィールドと「bar」フィールドを別々の出力として生成します。
- (.characters[]|[.code_ascii,.confidence]|@tsv).characters[]- 括弧は、フィルタ出力とは別に処理される出力に使用されます.ncharacter。

2番目の変形-gawk代わりにperlファイルjson修正を使用してください。このjq部分は最初の変形と同じです。

gawk '{ORS= (RT) ? "\"char" NR "\"" : ""; print}' RS='"characater"' input.json

ノート-perlそして、コマンドはフレームごとにブロックのカウンタをリセットgawkしません。charつまり、最初から始めchar1て最後まで増加します。

入力する- サンプルが3回複製されました。

出力

Answer

確認する：

最初の亜種

perl -pe 's/"characater"/"\"char" . (++$n) . "\""/ge' input.json |
jq -r '.frames.frame.lps.lp|.ncharacter,(.characters[]|[.code_ascii,.confidence]|@tsv)'

説明する

perl -pe 's/"characater"/"\"char" . (++$n) . "\""/ge' input.json
- -p- 各行を繰り返し、次のように印刷しますsed。
- -e- 1行のプログラムを入力するために使用することができます。与えられると、-ePerlは引数リストにファイル名を見つけません。
- s///ge- g: グローバル置換、e: 置換コマンドの右側を式で評価します。
- "\"char" . (++$n) . "\""- ポイントは接続に使用されます。
jq -r '.frames.frame.lps.lp|.ncharacter,(.characters[]|[.code_ascii,.confidence]|@tsv)'
- .frames.frame.lps.lp|- で作成できるので、.frames | .frame | .lps | .lp |次のように動作します。入力を受け取り、すべてのframesフィールドを選択して別のフィルタにパイプし.frame、次にすべてのframeフィールドを取得して次のフィルタにパイプする.lpsなどが続行されます。バラよりjqマニュアル、これ管路部分。
- |.ncharacter,(.characters[]|...)'-jqマニュアル、これ斑点部分：「2つのフィルタがコンマで区切られている場合、同じ入力が両方のフィルタに供給され、両方のフィルタの出力値ストリームが順番にリンクされます。は、.foo, .bar「foo」フィールドと「bar」フィールドを別々の出力として生成します。
- (.characters[]|[.code_ascii,.confidence]|@tsv).characters[]- 括弧は、フィルタ出力とは別に処理される出力に使用されます.ncharacter。

2番目の変形-gawk代わりにperlファイルjson修正を使用してください。このjq部分は最初の変形と同じです。

gawk '{ORS= (RT) ? "\"char" NR "\"" : ""; print}' RS='"characater"' input.json

ノート-perlそして、コマンドはフレームごとにブロックのカウンタをリセットgawkしません。charつまり、最初から始めchar1て最後まで増加します。

入力する- サンプルが3回複製されました。

出力

Question 2

これは、同じトピックに関する別の質問の連続です。ここでの主な問題は、入力に一意でないキーを持つオブジェクトが含まれていることです。これはまだ有効なJSONですが、それ以降のキーは古いキーを上書きするため、文書を解析するとデータが「失われます」。

前の質問にここに答えました。、回答で説明されている次のコマンドを使用します。

$ jq -r -n --stream 'fromstream(1|truncate_stream(5|truncate_stream(inputs)|select(.[0][0] == "characater"))) | [.code_ascii, .confidence] | @tsv' test.json
1       97
5       89
4       97
5       97
1       77
B       97
B       94
L       34

問題はこれ問題は、出力が出力ライン数の前に独自のラインにある必要があることです。これらの奇妙な形式のJSONドキュメントは1つのインスタンスではなく、セット全体が1行に1つずつあります。

以下は、結果を配列として収集して出力する前に要素数を計算する上記のコマンドを修正したものです。

$ jq -r -n --stream '[fromstream(1|truncate_stream(5|truncate_stream(inputs)|select(.[0][0] == "characater"))) | [.code_ascii, .confidence]] | length, (.[]|@tsv)' test.json
8
1       97
5       89
4       97
5       97
1       77
B       97
B       94
L       34

その後、ソースファイルの各行に対してこのコマンドを1回呼び出すだけです。

#!/bin/bash

cmd=( jq -r -n --stream '[fromstream(1|truncate_stream(5|truncate_stream(inputs)|select(.[0][0] == "characater"))) | [.code_ascii, .confidence]] | length, (.[]|@tsv)' )

while IFS= read -r json; do
    printf '%s\n' "$json" | "${cmd[@]}"
done <test.json

Answer