Unix バージョン 5 はどのチェックサムアルゴリズムを使用しますか?

Question

最初は2^16モジュロバイトの単純な和だと思いました。

合計モードは2^16で、オーバーフローするたびに1ずつ増加します。さらに、バイトは合計に追加される前に符号拡張されます。以下はアセンブリの「コメント」の断片です。

# r2 is the pointer into the data
# r0 is the length of the data
# r5 is the sum
2:
        movb    (r2)+,r4    # r4 = sign_extend(*r2++)
        add     r4,r5       # r5 += r4
        adc     r5          # if(r5 overflowed) r5++
        sob     r0,2b       # if(--r0) goto 2 above

同じ内容を小さなCプログラムに入れる（asを使用./v5sum < file）：

#include <stdio.h>
int main(void){
        int c, s = 0;
        while((c = getchar()) != EOF){
                s += c & 0x80 ? c | 0xff00 : c; // alternative: s += (unsigned short)(signed char)c
                if(s & 0x10000){ s++; s &= 0xffff; };
        }
        printf("%d\n", s);
        return 0;
}

具体的には、cksum -o 2とUnix V5のsumはほとんどのテキストファイルで一貫していますが、エミュレータ（/ binフォルダなど）のほとんどのバイナリに対して異なる出力を生成します。

これは、元のUnix v5のsum符号拡張文字とバイナリファイルにのみ0x80より大きいバイトが含まれているためです。そうでない場合、アルゴリズムは似ている必要があり、非常に大きなファイルでのみ異なります（文字合計は32ビット符号なし整数をオーバーフローします）。

Answer 1