nullバイトで埋められたファイルの変更を監視する方法は？

Question 1

以下は、NULパディングファイルのtailコマンドを偽造するために必要なものと同様のReaderスクリプトです。ファイルの変更を確認し（ナノ秒単位のタイムスタンプを含む完全なls -l出力を比較して）、バッチに追加された内容を報告します。起動時にファイルにすでに存在する行は報告せず、実行時に追加された行のみを報告します。

小切手の無駄を避けるために、2つの速度で実行されます。追加が検出されたら、1.0秒後にもう一度やり直してください。ループに追加が表示されない場合は、5秒後に再試行します（5はプロセスのパラメータです）。

#! /bin/bash
#: Reader: tail -f a file which is pre-formatted with many trailing NUL characters.

#### Implement the User Requirement.

function Reader {

    local RUN="${1:-60}" SLEEP="${2:-5}" FILE="${3:-/dev/null}"

    local AWK='''
BEGIN { NUL = "\000"; }
function Tick (Local, cmd, ts) {
    cmd = "date \047+%s\047";
    cmd | getline ts; close (cmd); return (ts);
}
function TS (Local, cmd, ts) {
    cmd = "date \047+%H:%M:%S.%N\047";
    cmd | getline ts; close (cmd); return (ts);
}
function Wait (secs) {
    system (sprintf ("sleep %s", secs));
}
function isChange (Local, cmd, tx) {
    cmd = sprintf ("ls 2>&1 -l --full-time \047%s\047", Fn);
    cmd | getline tx; close (cmd);
    if (tsFile == tx) return (0);
    tsFile = tx;
    if (index (tx, "\047")) {
        if (fSt != "B") { fSt = "B"; printf ("%s: No file: %s\n", TS( ), Fn); }
    } else {
        if (fSt != "G") { fSt = "G"; printf ("%s: Reading: %s\n", TS( ), Fn); }
    }
    return (1);
}
function atNul (buf, Local, j) {
    j = index (buf, NUL);
    return ((j > 0) ? j : 1 + length (buf)); 
}
function List (tx, Local, ts, X, j) {
    sub ("\012$", "", tx); split (tx, X, "\012");
    ts = TS( );
    for (j = 1; j in X; ++j) {
        printf ("%s %3d :%s:\n", ts, length (X[j]), X[j]);
    }
}
function Monitor (Local, rs, tk, Buf, Now, End) {
    printf ("%s: READER Begins\n", TS( ));
    tk = Tick( ); Expired = tk + Run;
    Now = -1;
    while (Tick( ) <= Expired) {
        if (! isChange( )) { Wait( Sleep); continue; }
        rs = RS; RS = "\000";
        Buf = ""; getline Buf < Fn; close (Fn);
        RS = rs;
        if (Now < 0) Now = atNul( Buf);
        End = atNul( Buf);
        List( substr (Buf, Now, End - Now));
        Now = End;
        Wait( 1.0);
    }
    printf ("%s: READER Exits\n", TS( ));
}
NR == 1 { Run = $0; next; }
NR == 2 { Sleep = $0; next; }
NR == 3 { Fn = $0; }
END { Monitor( Fn); }
'''
    {
        echo "${RUN}";
        echo "${SLEEP}";
        echo "${FILE}";

    } | awk -f <( echo "${AWK}" )
}

#### Script Body Starts Here.

    Reader 40 5 "./myNullFile"

Answer

以下は、NULパディングファイルのtailコマンドを偽造するために必要なものと同様のReaderスクリプトです。ファイルの変更を確認し（ナノ秒単位のタイムスタンプを含む完全なls -l出力を比較して）、バッチに追加された内容を報告します。起動時にファイルにすでに存在する行は報告せず、実行時に追加された行のみを報告します。

小切手の無駄を避けるために、2つの速度で実行されます。追加が検出されたら、1.0秒後にもう一度やり直してください。ループに追加が表示されない場合は、5秒後に再試行します（5はプロセスのパラメータです）。

#! /bin/bash
#: Reader: tail -f a file which is pre-formatted with many trailing NUL characters.

#### Implement the User Requirement.

function Reader {

    local RUN="${1:-60}" SLEEP="${2:-5}" FILE="${3:-/dev/null}"

    local AWK='''
BEGIN { NUL = "\000"; }
function Tick (Local, cmd, ts) {
    cmd = "date \047+%s\047";
    cmd | getline ts; close (cmd); return (ts);
}
function TS (Local, cmd, ts) {
    cmd = "date \047+%H:%M:%S.%N\047";
    cmd | getline ts; close (cmd); return (ts);
}
function Wait (secs) {
    system (sprintf ("sleep %s", secs));
}
function isChange (Local, cmd, tx) {
    cmd = sprintf ("ls 2>&1 -l --full-time \047%s\047", Fn);
    cmd | getline tx; close (cmd);
    if (tsFile == tx) return (0);
    tsFile = tx;
    if (index (tx, "\047")) {
        if (fSt != "B") { fSt = "B"; printf ("%s: No file: %s\n", TS( ), Fn); }
    } else {
        if (fSt != "G") { fSt = "G"; printf ("%s: Reading: %s\n", TS( ), Fn); }
    }
    return (1);
}
function atNul (buf, Local, j) {
    j = index (buf, NUL);
    return ((j > 0) ? j : 1 + length (buf)); 
}
function List (tx, Local, ts, X, j) {
    sub ("\012$", "", tx); split (tx, X, "\012");
    ts = TS( );
    for (j = 1; j in X; ++j) {
        printf ("%s %3d :%s:\n", ts, length (X[j]), X[j]);
    }
}
function Monitor (Local, rs, tk, Buf, Now, End) {
    printf ("%s: READER Begins\n", TS( ));
    tk = Tick( ); Expired = tk + Run;
    Now = -1;
    while (Tick( ) <= Expired) {
        if (! isChange( )) { Wait( Sleep); continue; }
        rs = RS; RS = "\000";
        Buf = ""; getline Buf < Fn; close (Fn);
        RS = rs;
        if (Now < 0) Now = atNul( Buf);
        End = atNul( Buf);
        List( substr (Buf, Now, End - Now));
        Now = End;
        Wait( 1.0);
    }
    printf ("%s: READER Exits\n", TS( ));
}
NR == 1 { Run = $0; next; }
NR == 2 { Sleep = $0; next; }
NR == 3 { Fn = $0; }
END { Monitor( Fn); }
'''
    {
        echo "${RUN}";
        echo "${SLEEP}";
        echo "${FILE}";

    } | awk -f <( echo "${AWK}" )
}

#### Script Body Starts Here.

    Reader 40 5 "./myNullFile"

Question 2

全体的な概念に問題があります。

作成者はNULバイトを別の文字列に置き換えますか、それとも古い文字列の上に新しい文字列を書き込むことができますか（完全に重複しない可能性があります）？文字列の間には常に1つ以上のNUL区切り文字がありますか？
新しいNULで文字列を上書きしてファイルの一部を削除することもできますか？
元のファイルは実際には10MBのNULですか、それとも元のスパースファイルでしたか？
ファイル全体を読む必要がある文字列を見つけることができることを考えると、どのくらいの頻度でこれを行う準備ができていますか？
競合状態を避けるために、ファイルの書き込み中にファイルをロックする方法はありますか？
全体の操作中にファイルサイズが変更されますか？

awk（少なくともGNU / awk）はNUL文字と長い行を処理できます。 NUL範囲のリスト（元は[0,10485760]）を維持し、これらの領域に新しいフラグメントがあることを確認してください。しかし、これはオーバーレイを検出しません。ただし、追加プロセスなしで追加されたすべての内容を報告できます。

GNU / awkには、RE区切り記号に基づいて文字列を分割してフィールド配列と区切り記号配列を形成する組み込みのpatsplit（）関数があります。したがって、RE / [\ 000] + /はすべての文字列を1つの配列に配置し、すべてのNUL反復を別の配列に入れる必要があります。捜査に適した候補のようです。

ところで、catコマンドはNUL文字を表示します。 odコマンドを使用してファイルに表示できます。端末に表示されない理由は、端末ドライバがこれを無視するためです。

Romeoが提案したように、古いファイルのcksumを保持すると、変更されたかどうかはわかりますが、場所は不明です。したがって、これは更新の頻度に応じて有用な最適化になる可能性があります。

Answer

全体的な概念に問題があります。

作成者はNULバイトを別の文字列に置き換えますか、それとも古い文字列の上に新しい文字列を書き込むことができますか（完全に重複しない可能性があります）？文字列の間には常に1つ以上のNUL区切り文字がありますか？
新しいNULで文字列を上書きしてファイルの一部を削除することもできますか？
元のファイルは実際には10MBのNULですか、それとも元のスパースファイルでしたか？
ファイル全体を読む必要がある文字列を見つけることができることを考えると、どのくらいの頻度でこれを行う準備ができていますか？
競合状態を避けるために、ファイルの書き込み中にファイルをロックする方法はありますか？
全体の操作中にファイルサイズが変更されますか？

awk（少なくともGNU / awk）はNUL文字と長い行を処理できます。 NUL範囲のリスト（元は[0,10485760]）を維持し、これらの領域に新しいフラグメントがあることを確認してください。しかし、これはオーバーレイを検出しません。ただし、追加プロセスなしで追加されたすべての内容を報告できます。

GNU / awkには、RE区切り記号に基づいて文字列を分割してフィールド配列と区切り記号配列を形成する組み込みのpatsplit（）関数があります。したがって、RE / [\ 000] + /はすべての文字列を1つの配列に配置し、すべてのNUL反復を別の配列に入れる必要があります。捜査に適した候補のようです。

ところで、catコマンドはNUL文字を表示します。 odコマンドを使用してファイルに表示できます。端末に表示されない理由は、端末ドライバがこれを無視するためです。

Romeoが提案したように、古いファイルのcksumを保持すると、変更されたかどうかはわかりますが、場所は不明です。したがって、これは更新の頻度に応じて有用な最適化になる可能性があります。

Question 3

私はGNU / awkとpatsplit（）の使用に関する私の考えがうまくいくかどうかを確認するのに十分なことをしました。偽のWriterを設定するには、開発時間の約70％がかかりました。 10MBファイルを設定し、定期的に任意の場所に文字列を書き込むことができるddオプションのセットが見つかりました。

内容全体を1つの長い文字列としてメモリにインポートし、nullを1つの配列に分割し、文字列を別の配列に分割するリーダーがあります。 10MBを読み取るには0.044秒、文字列を配列に分割するには0.989秒、私が配置した20個の文字列の開始、長さ、内容を報告するのに0.138秒かかります。したがって、ファイルのスナップショットを撮るのに約1.2秒かかります。

すべてのタイミングは8年前の私の安いラップトップで行われました。とにかく10MB全体を解析する必要があるため、文字列が多い場合でもパフォーマンスに悪影響を及ぼさないようです。次のステップはこれを確認することです。

私は古い文字列と新しい文字列のハッシュテーブルを維持し、変更を見つけるのは簡単で効率的だと思います。

データに文字列を追加する方法についてもっと知りたいですか？前のデータと常に連続している場合は、古い文字列を見ると尾を簡単にシミュレートできます。頻繁に発生しない場合は、ファイルを読み取る前にタイムスタンプを確認できます。ファイルの最初の部分にインデックスを書き込む場合は、それを最初に確認できます。このファイルの全体的な概念のために、システムの残りの部分でどのような用途に使用されるかを確認することは困難です。これはリポジトリを使用する敵対的な方法です。

それでもこの質問に興味がありますか？以前の質問に対するOPの応答は表示されませんが、文字列の重なりなどは更新と長さの変更でのみ表示されるようです。

Answer