任意のソースが同じであっても、同じ行を提供しない2つの並列テキストファイルを混在させます。

任意のソースが同じであっても、同じ行を提供しない2つの並列テキストファイルを混在させます。

これは次のようになります。2つの並列テキストファイルを混在させる

私は持っています:

  • 平行線を持つ2つの大きなcsvファイル。 (特定プロジェクトの「前」および「以降」の状態を示します)。これらのフィールドは文字列の場合もあり、数字の場合もあります。

  • 利用できるほど長いランダムデータファイルshuf

ランダムに一致するサンプルを取得したいときは、次のことを考えました。

shuf -n10 --random-source="random.csv" "file1" 
shuf -n10 --random-source="random.csv" "file2" 

ただし、ファイルが一致しなくなりました。

ただし、行番号を先頭に置くと問題が解決します。

shuf -n10 --random-source="random.csv" <(cat -n "file1") 
shuf -n10 --random-source="random.csv" <(cat -n "file2")

誰かが理由を説明できますか?

以下はrandom.csvの例です。

0.293076138
0.446732207
0.552989654
0.16141527
0.099383023
...

以下は2つのファイルのスニペットです。

VA,DEFAULT,72.8027,11.9534.....
VA,DEFAULT,61.8356,11.9342....
VA,DEFAULT,61.8356,....

2つのファイルのほとんどの行の最初の2つのフィールドは同じです。たぶんそれは問題ですか?私はまだ十分にわかりませんshuf

関連情報