大容量ファイルから値のないCSVフィールドを削除する

Question

これがあなたにどのように役立つかを確認してください。

$ cut --complement -d, -f$(awk -F, '
NR > 1  {for (i=1; i<=NF; i++)  CNT[i, $i]++
        }
END     {for (c in CNT) if (CNT[c] == (NR-1))   {split (c, T, SUBSEP)
                                                 printf "%s%d", DL, T[1]
                                                 DL = ","
                                                }
        }
' /tmp/small_data.csv)  /tmp/small_data.csv

あなたのcutバージョンに対応するオプションがあるとします--complement。それ以外の場合は、印刷ロジックを逆にします。そのセクションで失敗した場合は、awk行ごとの処理を維持してください。NREND

すべての行（タイトルを除く）のすべてのフィールドを調べて、一意のコンテンツを計算します。そのENDセクションの行数CNTからヘッダーを引いたものと同じ場合（つまり、フィールドのすべての行に同じ内容がある場合）、インデックスを分割してフィールド番号を印刷します。

Answer 1

これがあなたにどのように役立つかを確認してください。

$ cut --complement -d, -f$(awk -F, '
NR > 1  {for (i=1; i<=NF; i++)  CNT[i, $i]++
        }
END     {for (c in CNT) if (CNT[c] == (NR-1))   {split (c, T, SUBSEP)
                                                 printf "%s%d", DL, T[1]
                                                 DL = ","
                                                }
        }
' /tmp/small_data.csv)  /tmp/small_data.csv

あなたのcutバージョンに対応するオプションがあるとします--complement。それ以外の場合は、印刷ロジックを逆にします。そのセクションで失敗した場合は、awk行ごとの処理を維持してください。NREND

すべての行（タイトルを除く）のすべてのフィールドを調べて、一意のコンテンツを計算します。そのENDセクションの行数CNTからヘッダーを引いたものと同じ場合（つまり、フィールドのすべての行に同じ内容がある場合）、インデックスを分割してフィールド番号を印刷します。

大容量ファイルから値のないCSVフィールドを削除する

答え1

関連情報