ノイズの多いデータを含むCSVファイルを強力に分割します。

Question 1

1つの方法は、awkしきい値に達する最初の行とその下の最後の行を取得するようにしきい値を設定することです。次のように動作します。

awk -F, -vthreshold_up=20 -vthreshold_down=10 'BEGIN {
                          cur = "gt";
                        } 
                        {
                          if (cur == "gt" && $2 > threshold_up) {
                            print;
                            cur = "lt";
                          } else if (cur = "lt" && $2 < threshold_down) {
                            print;
                            cur = "gt";
                          }
                        }' file.csv

Answer

1つの方法は、awkしきい値に達する最初の行とその下の最後の行を取得するようにしきい値を設定することです。次のように動作します。

awk -F, -vthreshold_up=20 -vthreshold_down=10 'BEGIN {
                          cur = "gt";
                        } 
                        {
                          if (cur == "gt" && $2 > threshold_up) {
                            print;
                            cur = "lt";
                          } else if (cur = "lt" && $2 < threshold_down) {
                            print;
                            cur = "gt";
                          }
                        }' file.csv

Question 2

jordanmのアプローチを拡張することで、統計に頼らずに驚くほど強力な機能を構築することができました。残念ながら、スクリプトは少し長くなっていますが、これが完了したので、必要に応じて使用できます。正しいパラメータだけを調べてください。

私は12の実際のデータファイルをテストしましたが、いくつかは次のように汚れていました。

汚れたCPUとメモリのCSVチャート

ここでの秘訣は、MIN_DURATION一時的な急増を無視し、指定された行数まで低下するのに役立つ変数を使用することです。

使用法:

grep-begin-end FIELD_SEPARATOR FIELD_INDEX THRESHOLD_UP THRESHOLD_DOWN MIN_DURATION ...

例:

grep-begin-end , 2 30 4 5 file.csv

grep 開始終了

FIELD_SEPARATOR=$1
FIELD_INDEX=$2
THRESHOLD_UP=$3
THRESHOLD_DOWN=$4
MIN_DURATION=$5
shift 5
awk -F$FIELD_SEPARATOR -vthreshold_up=$THRESHOLD_UP -vthreshold_down=$THRESHOLD_DOWN 'BEGIN {
    cur = "gt";
}
{
    val = $'$FIELD_INDEX';
    # strip of double quotes and convert to number
    if (substr(val, 1, 1) == "\"") { val = 0 + substr(val, 2, length(val) - 3); } else { val = 0 + val; }
    buf = "";
    if (cur == "gt")
    {
        if (val >= threshold_up)
        {
            if (buf == "")
                buf = $0;
            if (duration >= '$MIN_DURATION')
            {
                print buf;
                cur = "lt";
                duration = 0;
                buf = "";
            }
            else
            {
                duration++;
            }
        }
        else
        {
            duration = 0;
        }
    }
    else if (cur == "lt")
    {
        if (val <= threshold_down)
        {
            if (buf == "")
                buf = $0;
            if (duration >= '$MIN_DURATION')
            {
                print buf;
                cur = "gt";
                duration = 0;
                buf = "";
            }
            else
            {
                duration++;
            }
        }
        else
        {
            duration = 0;
        }
    }
}' "$@"

Answer