Rsyncを介した72TB画像シーケンスの移動

Rsyncを介した72TB画像シーケンスの移動

映画プロジェクトで72TBの画像シーケンスのコピーを作成する必要がある課題があります。私は650万枚の11MBの画像を持っていると推定しています。

ソースドライブは、ターゲットRAID5 SASと同様に、読み取り/書き込み速度が1000 MB / sのRAID5 SASです。

私のテスト100GBのビデオファイルは、上記の速度でソースからターゲットに移動しました。

-avbを使用するRSYNC 3.2.6の現在の最大速度は211 MB / sです。

TARで20GB(説明のためにランダムに選択されています)の非圧縮zipを作成し、RSYNCにパイプして多くの小さなファイルを処理するためのオーバーヘッドを減らすことを探索すると、どのような利点がありますか?

現在の課題は4~5日程度かかると予想されますが、短縮したいと思います。

どんな意見でも大歓迎です!

Mac OS 12.3 M1スタジオウルトラ

答え1

現在、いくつかの小さなファイルを探して読み書きすることに制限されています。持つ20GBの.​​zip/.tarファイルが役に立ちます。作るzip同じことを行う必要があるため、rsyncよりも遅くなる可能性があります(ランダムアクセスを読む)。しかし、私の言葉をそのまま受け入れないでください。 rsyncを一時停止してテストしてください!テストはほぼ常に正解です。

Linuxでは、このツールを使用してiostatディスクを待つのにかかる時間の割合を確認することをお勧めします。 OS Xを使用している場合は、OS Xに対応するものが何であるかわかりません。

フルソースRAIDとターゲットRAIDを組み合わせる場合まったく同じ最後に(オプションは提供されていますが-bそうではありません)、dd1000 MB / sで実行されているRAIDデバイスなどのものを使用できます。しかし、必ず知っておいてください。正確にddで何をしていますか?そうしないと、データが破損する可能性があります。

これが頻繁に行われている場合は、イメージの作成中にrsyncを繰り返し実行して4日間待たないようにすることをお勧めします。

答え2

rsync ストリームに使用する主な速度向上は次のとおりです。

  1. ファイルのリストを分割し、ソースコンピュータとターゲットコンピュータの間で並列rsyncストリームを実行します。これは通常、かなりのスループットの増加をもたらす。
  2. 転送方法でSSHを削除しました。暗号化/復号化フェーズにはいくつかのオーバーヘッドがあります。安全な場合(最近は一般的ではありません)、rsyncクライアントを(暗号化されていない)rsyncデーモンに接続すると、スループットが大幅に向上する可能性があります。
  3. あなたが質問し、他の答えで解決されました。特に、データが圧縮可能で、転送前に圧縮し、転送後に解凍できる場合は、平均ファイルサイズを増やすと便利です。 (そして追加のストレージスペースがあります。)圧縮/圧縮解除ステップに投資した時間は、転送ステップの時間を短縮することができます。

単一のTCPストリーム(つまり、単一のrsync転送)が1 Gbps以上のネットワークリンクを介して最大スループットを達成できることは非常にまれです。並列伝送が最大の差を生じる可能性が高い。インターネットには、並列rsyncを実行できると主張するいくつかのプログラムがあります。大成功を収めずに自分で書いてみました。これはビューよりも複雑な作業です。

関連情報