区切られた2つのファイルを比較し、違いを出力します。

Question 1

次のPythonプログラムは必要な作業を実行するか、それに非常に近い作業を実行する必要があります。

3行目がdesired_output.txt間違っているようです。
```
Mem_id#-aa3 : time-  file1.txt value = ccx3 / file2.txt value= dd3
```
dd3 should probably becc3 `

それ以外の場合、プログラムの出力は、例の出力でやや不規則に見えるスペースを除いて一致します。
入力はキー（memid）でソートされたと見なされます。
プログラムは、同期を試みるとデフォルトで4行（max_diff + 1）をバッファリングします。このバッファのキーのうち「現在」キーと一致するキーがない場合、vvは不一致として処理され、印刷され、次のペアが試行されます。キーが見つかると、他のバッファまたは出力との不一致が最初に発生します。
入力例には、最初の行と2番目の行に同じmemidが2回（またはそれ以上）ある場合に予想される動作にいくつかの制限があります。

output()任意の行を一致させ、すべての一致を表示しようとした後（左から右へ）。したがって、同じmemid内で一致する行の順序は重要ではありません。左、右、または両方が空の場合（特に両方が空の場合）、印刷が簡単です。残りの部分では、残りの各行を左から右に一致させます。
fmtの文字列によってline_out()出力が決まり、自由に変更/再注文できます。

#! /usr/bin/env python
# coding: utf-8
# http://unix.stackexchange.com/q/161913/33055

from __future__ import print_function
from collections import OrderedDict
from logging import debug

import sys


class RowBuffer:
    def __init__(self, file_name, delim=None, max_diff=3):
        """delim is the character that is used for splitting input.
        None->whitespace
        """
        self._verbose = 0
        self._file_name = file_name
        self._fp = open(self._file_name)
        self._delim = delim
        self._max_diff = max_diff
        self._head = self._fp.readline().split(delim)
        # the buffer consists of a maximum of max_diff entries
        # the keys are the first items of a row, the value a list
        # of all other items on that row
        self._buffer = OrderedDict()
        self.fill_buffer()

    def compare(self, rb):
        """check if self._buffer"""
        if self._head != rb._head:
            print('headings differ:\n  {}\n  {}'.format(
                self._head, rb._head))
        while self._buffer:
            l = self.get()
            try:
                r = rb.get()
            except KeyError:
                debug('only left %s', l[0])
                self.output(l, None, rb)
                break
            if l[0] == r[0]:
                debug('compare vals %s', l[0])
                self.output(l, r, rb)
                continue
            if l[0] in rb:
                # left key in right, but not at top
                # output right until top keys are same
                while l[0] != r[0]:
                    debug('only right %s', r[0])
                    self.output(None, r, rb)
                    r = rb.get()
                self.output(l, r, rb)
                continue
            if r[0] in self:
                # right key in left, but not at top
                # output left until top keys are same
                while l[0] != r[0]:
                    debug('only left %s', l[0])
                    self.output(l, None, rb)
                    l = self.get()
                self.output(l, r, rb)
                continue
            # neither found: output both
            debug('neither left in right nor vv %s %s', l[0], r[0])
            self.output(l, None, rb)
            self.output(None, r, rb)
        while rb._buffer:  # remaining in right file
            r = rb.get()
            debug('only right %s', r[0])
            self.output(None, r, rb)

    def output(self, l, r, right):
        fmt1 = '{col0_header}#-{col0_value} : {col_header}-  ' \
            '{left_file_name} value = {left_value} / ' \
            '{right_file_name} value= {right_value}'
        d = dict(
            col0_header=self._head[0],
            left_file_name=self._file_name,
            right_file_name=right._file_name,
        )
        if l is not None and r is not None:
            # one or more values on both sides, compare all lines on the
            # left with all on the right remove any matching pairs
            match = {}  # left index to right index
            for lidx, lv in enumerate(l[1]):
                for ridx, rv in enumerate(r[1]):
                    if lv == rv:
                        if lidx not in match:
                            match[lidx] = ridx
            # pop from back of list, not invalidate index
            for lidx in sorted(match, reverse=True):
                l[1].pop(lidx)
            for ridx in sorted(match.values(), reverse=True):
                r[1].pop(lidx)
        if r is None or not r[1]:
            for lv in l[1]:
                for idx, k in enumerate(self._head[1:]):
                    self.line_out(d, col0_value=l[0], col_header=k,
                                  left_value=lv[idx], right_value='    ')
            return
        if l is None or not l[1]:
            for rv in r[1]:
                for idx, k in enumerate(self._head[1:]):
                    self.line_out(d, col0_value=l[0], col_header=k,
                                  left_value='    ', right_value=rv[idx])
            return
        # print non matching
        for lv in l[1]:
            for rv in r[1]:
                for idx, k in enumerate(self._head[1:]):
                    if lv[idx] == rv[idx]:
                        continue  # same value
                    self.line_out(d, col0_value=l[0], col_header=k,
                                  left_value=lv[idx], right_value=rv[idx])

    def line_out(self, d, **kw):
        # manipulate and print output
        # the fields of the format string can be arbitrarily arranged
        # as long as the field names (between {} match)
        fmt = '{col0_header}#-{col0_value} : {col_header}-  ' \
            '{left_file_name} value = {left_value} / ' \
            '{right_file_name} value= {right_value}'
        d1 = d.copy()
        d1.update(kw)
        s = fmt.format(**d1)
        # s = s.rstrip()
        s = s[0].upper() + s[1:]  # sample output doesn't match input
        print(s)

    def get(self):
        item = self._buffer.popitem(last=False)
        self.fill_buffer()
        return item

    def fill_buffer(self):
        if self._fp is None:
            return
        while len(self._buffer) < self._max_diff:
            row = self._fp.readline().split(self._delim)
            if not row:
                self._fp.close()
                self._fp = None
                return
            entry = self._buffer.setdefault(row[0], [])
            entry.append(row[1:])

    def __contains__(self, key):
        self.fill_buffer()
        return key in self._buffer

rb1 = RowBuffer(sys.argv[1])
rb2 = RowBuffer(sys.argv[2])
rb1.compare(rb2)

Answer

次のPythonプログラムは必要な作業を実行するか、それに非常に近い作業を実行する必要があります。

3行目がdesired_output.txt間違っているようです。
```
Mem_id#-aa3 : time-  file1.txt value = ccx3 / file2.txt value= dd3
```
dd3 should probably becc3 `

それ以外の場合、プログラムの出力は、例の出力でやや不規則に見えるスペースを除いて一致します。
入力はキー（memid）でソートされたと見なされます。
プログラムは、同期を試みるとデフォルトで4行（max_diff + 1）をバッファリングします。このバッファのキーのうち「現在」キーと一致するキーがない場合、vvは不一致として処理され、印刷され、次のペアが試行されます。キーが見つかると、他のバッファまたは出力との不一致が最初に発生します。
入力例には、最初の行と2番目の行に同じmemidが2回（またはそれ以上）ある場合に予想される動作にいくつかの制限があります。

output()任意の行を一致させ、すべての一致を表示しようとした後（左から右へ）。したがって、同じmemid内で一致する行の順序は重要ではありません。左、右、または両方が空の場合（特に両方が空の場合）、印刷が簡単です。残りの部分では、残りの各行を左から右に一致させます。
fmtの文字列によってline_out()出力が決まり、自由に変更/再注文できます。

#! /usr/bin/env python
# coding: utf-8
# http://unix.stackexchange.com/q/161913/33055

from __future__ import print_function
from collections import OrderedDict
from logging import debug

import sys


class RowBuffer:
    def __init__(self, file_name, delim=None, max_diff=3):
        """delim is the character that is used for splitting input.
        None->whitespace
        """
        self._verbose = 0
        self._file_name = file_name
        self._fp = open(self._file_name)
        self._delim = delim
        self._max_diff = max_diff
        self._head = self._fp.readline().split(delim)
        # the buffer consists of a maximum of max_diff entries
        # the keys are the first items of a row, the value a list
        # of all other items on that row
        self._buffer = OrderedDict()
        self.fill_buffer()

    def compare(self, rb):
        """check if self._buffer"""
        if self._head != rb._head:
            print('headings differ:\n  {}\n  {}'.format(
                self._head, rb._head))
        while self._buffer:
            l = self.get()
            try:
                r = rb.get()
            except KeyError:
                debug('only left %s', l[0])
                self.output(l, None, rb)
                break
            if l[0] == r[0]:
                debug('compare vals %s', l[0])
                self.output(l, r, rb)
                continue
            if l[0] in rb:
                # left key in right, but not at top
                # output right until top keys are same
                while l[0] != r[0]:
                    debug('only right %s', r[0])
                    self.output(None, r, rb)
                    r = rb.get()
                self.output(l, r, rb)
                continue
            if r[0] in self:
                # right key in left, but not at top
                # output left until top keys are same
                while l[0] != r[0]:
                    debug('only left %s', l[0])
                    self.output(l, None, rb)
                    l = self.get()
                self.output(l, r, rb)
                continue
            # neither found: output both
            debug('neither left in right nor vv %s %s', l[0], r[0])
            self.output(l, None, rb)
            self.output(None, r, rb)
        while rb._buffer:  # remaining in right file
            r = rb.get()
            debug('only right %s', r[0])
            self.output(None, r, rb)

    def output(self, l, r, right):
        fmt1 = '{col0_header}#-{col0_value} : {col_header}-  ' \
            '{left_file_name} value = {left_value} / ' \
            '{right_file_name} value= {right_value}'
        d = dict(
            col0_header=self._head[0],
            left_file_name=self._file_name,
            right_file_name=right._file_name,
        )
        if l is not None and r is not None:
            # one or more values on both sides, compare all lines on the
            # left with all on the right remove any matching pairs
            match = {}  # left index to right index
            for lidx, lv in enumerate(l[1]):
                for ridx, rv in enumerate(r[1]):
                    if lv == rv:
                        if lidx not in match:
                            match[lidx] = ridx
            # pop from back of list, not invalidate index
            for lidx in sorted(match, reverse=True):
                l[1].pop(lidx)
            for ridx in sorted(match.values(), reverse=True):
                r[1].pop(lidx)
        if r is None or not r[1]:
            for lv in l[1]:
                for idx, k in enumerate(self._head[1:]):
                    self.line_out(d, col0_value=l[0], col_header=k,
                                  left_value=lv[idx], right_value='    ')
            return
        if l is None or not l[1]:
            for rv in r[1]:
                for idx, k in enumerate(self._head[1:]):
                    self.line_out(d, col0_value=l[0], col_header=k,
                                  left_value='    ', right_value=rv[idx])
            return
        # print non matching
        for lv in l[1]:
            for rv in r[1]:
                for idx, k in enumerate(self._head[1:]):
                    if lv[idx] == rv[idx]:
                        continue  # same value
                    self.line_out(d, col0_value=l[0], col_header=k,
                                  left_value=lv[idx], right_value=rv[idx])

    def line_out(self, d, **kw):
        # manipulate and print output
        # the fields of the format string can be arbitrarily arranged
        # as long as the field names (between {} match)
        fmt = '{col0_header}#-{col0_value} : {col_header}-  ' \
            '{left_file_name} value = {left_value} / ' \
            '{right_file_name} value= {right_value}'
        d1 = d.copy()
        d1.update(kw)
        s = fmt.format(**d1)
        # s = s.rstrip()
        s = s[0].upper() + s[1:]  # sample output doesn't match input
        print(s)

    def get(self):
        item = self._buffer.popitem(last=False)
        self.fill_buffer()
        return item

    def fill_buffer(self):
        if self._fp is None:
            return
        while len(self._buffer) < self._max_diff:
            row = self._fp.readline().split(self._delim)
            if not row:
                self._fp.close()
                self._fp = None
                return
            entry = self._buffer.setdefault(row[0], [])
            entry.append(row[1:])

    def __contains__(self, key):
        self.fill_buffer()
        return key in self._buffer

rb1 = RowBuffer(sys.argv[1])
rb2 = RowBuffer(sys.argv[2])
rb1.compare(rb2)

Question 2

これはあなたの問題に対する（優雅さから離れている）部分的な解決策です。最初の列をid列として使用し（最初の列である必要はありませんが必ずしも必要です）、suffix同じキーの複数の項目を格納するために3番目の次元を導入します。最後に、ファイル1で見つからないキーをファイル2で見つけようとします。

BEGIN {
    IGNORECASE = 1
} 

NR==1 {
    for (i = 1; i <= NF; i++)    
        header[i] = $i
    suffix = 0
    previous_key=""
}

NR==FNR {
    if ($1 == previous_key) {
        suffix = suffix + 1
        max_suffix[$1] = suffix
    } else
        suffix = 0
    for (i = 1; i <= NF; i++) {
        A[$1,suffix,i] = $i
    } 
    key_count[$1] = key_count[$1] + 1
    previous_key = $1
    next
}

{  
    if ($1 == previous_key)
        suffix = suffix + 1
    else
        suffix = 0
    previous_key = $1
    if (A[$1,suffix,1] != "") {
        for (i = 2; i <= NF; i++) 
            if (A[$1,suffix,i] != $i) {
                print header[1]"#-"$1": " header[i] "- " ARGV[1] " value= ", A[$1,suffix,i]" / " ARGV[2] " value= "$i
            }
        key_count[$1] = key_count[$1] - 1
    }
    else
        for (i = 2; i <= NF; i++) 
            print header[1]"#-"$1": " header[i] "- " ARGV[1] " value= ", " / " ARGV[2] " value= "$i
}

END {
    for (missing_key in key_count) 
        if (key_count[missing_key] > 0) {            
            for (suffix = max_suffix[missing_key] - key_count[missing_key] + 1; suffix <= C[missing_key]; suffix++) 
                for (i = 2; i <= NF; i++) 
                    print header[1]"#-"missing_key": " header[i] "- " ARGV[1] " value= ", A[missing_key,suffix,i] " / " ARGV[2] " value= "
        }           
}

注意することがあります。ファイル 2 の一致しない項目は常に末尾に印刷され、ファイルの場所によってソートされません。また、行の順序は任意です。私はこれがコマンドに結果を渡すことで達成できると思いますsort。

Answer

これはあなたの問題に対する（優雅さから離れている）部分的な解決策です。最初の列をid列として使用し（最初の列である必要はありませんが必ずしも必要です）、suffix同じキーの複数の項目を格納するために3番目の次元を導入します。最後に、ファイル1で見つからないキーをファイル2で見つけようとします。

BEGIN {
    IGNORECASE = 1
} 

NR==1 {
    for (i = 1; i <= NF; i++)    
        header[i] = $i
    suffix = 0
    previous_key=""
}

NR==FNR {
    if ($1 == previous_key) {
        suffix = suffix + 1
        max_suffix[$1] = suffix
    } else
        suffix = 0
    for (i = 1; i <= NF; i++) {
        A[$1,suffix,i] = $i
    } 
    key_count[$1] = key_count[$1] + 1
    previous_key = $1
    next
}

{  
    if ($1 == previous_key)
        suffix = suffix + 1
    else
        suffix = 0
    previous_key = $1
    if (A[$1,suffix,1] != "") {
        for (i = 2; i <= NF; i++) 
            if (A[$1,suffix,i] != $i) {
                print header[1]"#-"$1": " header[i] "- " ARGV[1] " value= ", A[$1,suffix,i]" / " ARGV[2] " value= "$i
            }
        key_count[$1] = key_count[$1] - 1
    }
    else
        for (i = 2; i <= NF; i++) 
            print header[1]"#-"$1": " header[i] "- " ARGV[1] " value= ", " / " ARGV[2] " value= "$i
}

END {
    for (missing_key in key_count) 
        if (key_count[missing_key] > 0) {            
            for (suffix = max_suffix[missing_key] - key_count[missing_key] + 1; suffix <= C[missing_key]; suffix++) 
                for (i = 2; i <= NF; i++) 
                    print header[1]"#-"missing_key": " header[i] "- " ARGV[1] " value= ", A[missing_key,suffix,i] " / " ARGV[2] " value= "
        }           
}

注意することがあります。ファイル 2 の一致しない項目は常に末尾に印刷され、ファイルの場所によってソートされません。また、行の順序は任意です。私はこれがコマンドに結果を渡すことで達成できると思いますsort。

区切られた2つのファイルを比較し、違いを出力します。

答え1

答え2

関連情報