ソフトウェアRAID 5と6のストライプサイズ：小さなストライプサイズがなぜ効率が悪いのですか？

Question 1

私が知る限り、この問題は頭の動きに関連しているわけではなく、すべてのオーバーヘッドが原因で発生します。指定された順次読み取りまたは書き込みの場合、4KBストライプサイズは64KBストライプサイズより16倍多くの操作を実行します。より多くのCPU時間、より多くのメモリ帯域幅、より多くのコンテキスト切り替え、より多くのI / O、カーネルI / Oスケジューラのより多くの作業、より多くの計算のマージなどにより、最終的にすべてのI / OOにはより多くの遅延があります発生します。

多くのアプリケーションはキューサイズが1のI / Oを実行しているため、16個の4KB順次要求をディスクへの64KB要求に常に統合できるわけではありません。

また、一般的なATTOディスクのベンチマークを見ると、次のようになります。

ここに画像の説明を入力してください。

128KB以上のブロックで読み取りが完了するまで、ディスクは最高速度で順次読み取ることができないことがわかります。

Tomshardwareは、ストライプサイズの影響について非常に包括的なレビューを提供します。

http://www.tomshardware.com/reviews/RAID-SCALING-CHARTS,1735.html

Answer

私が知る限り、この問題は頭の動きに関連しているわけではなく、すべてのオーバーヘッドが原因で発生します。指定された順次読み取りまたは書き込みの場合、4KBストライプサイズは64KBストライプサイズより16倍多くの操作を実行します。より多くのCPU時間、より多くのメモリ帯域幅、より多くのコンテキスト切り替え、より多くのI / O、カーネルI / Oスケジューラのより多くの作業、より多くの計算のマージなどにより、最終的にすべてのI / OOにはより多くの遅延があります発生します。

多くのアプリケーションはキューサイズが1のI / Oを実行しているため、16個の4KB順次要求をディスクへの64KB要求に常に統合できるわけではありません。

また、一般的なATTOディスクのベンチマークを見ると、次のようになります。

ここに画像の説明を入力してください。

128KB以上のブロックで読み取りが完了するまで、ディスクは最高速度で順次読み取ることができないことがわかります。

Tomshardwareは、ストライプサイズの影響について非常に包括的なレビューを提供します。

http://www.tomshardware.com/reviews/RAID-SCALING-CHARTS,1735.html

Question 2

私はLinuxソフトウェアRAIDについて話しています。見たときコードを入力、mdドライバが完全に最適化されていないことがわかります。複数の連続した要求が生成される場合、md ドライバーはより大きな要求にマージされません。いくつかの一般的なケースでは、これはかなりのオーバーヘッドを引き起こす可能性があります。

大規模な読み取りまたは書き込みは最適化されます。ストライプと同じサイズのいくつかの要求に縮小され、最適に処理されます。

読み取りまたは書き込みが2つのストライプにまたがる場合、mdドライバは正しく動作します。すべてが一度の操作として扱われます。

小さな読み出しの場合、最初の読み込み後にデータがカーネルキャッシュにあるので問題はありません。したがって、多重連続読み取りは、低速のディスク帯域幅と比較して、CPUとメモリに小さなオーバーヘッドのみを課します。
たとえば、一度に100バイトずつ1 Gbのデータを読み取ります。カーネルはまずそれを512kbの読み取りに変換します。これは最小I / Oサイズであるため（ストライプサイズが512kbの場合）。したがって、次の100バイトはすでにカーネルキャッシュにあります。これは、RAIDではなくパーティションから読み取るのとまったく同じです。

ストライプサイズより小さい書き込みの場合、mdドライバは最初にストライプ全体をメモリに読み込み、メモリを新しいデータで上書きし、結果を計算し（パリティが使用されている場合）（主にRAID 5と6）コピーします。ディスクへの書き込み。
たとえば、一度に100バイトずつ1 Gbのデータを書き込みます。カーネルは最初に512kbのストリップを読み取り、メモリ内の必要な部分を上書きし、パリティが含まれている場合は結果を計算してディスクに書き込みます。次の100バイトを書き込むと、データはカーネルキャッシュにあるため、「512kbストリップの読み取り」のみが防止されます。したがって、メモリを上書きしてパリティを計算するのに多少のオーバーヘッドが発生しますが、データが同じストライプに書き戻されるため、オーバーヘッドが大きくなります。ここのカーネルコードは最適化されていません。

これらの繰り返し書き込みが正しくキャッシュされず、データが数秒後にディスクにフラッシュされる理由を理解するのに十分な調査は行われませんでした（ストライプごとに一度だけ）。キャッシュされた場合、オーバーヘッドは一部のCPUとメモリにすぎませんが、私の独自のベンチマークによると、CPUはまだ10％未満であり、I / Oがボトルネックを引き起こすことがわかりました。

書き込みが最適化されると、最小ストライプサイズは常に最適です。 4つのディスクを備えたRAID 6、4kセクタは8kbストライプを作成し、可能なすべての負荷に対して最高の読み書きスループットになります。

Answer

私はLinuxソフトウェアRAIDについて話しています。見たときコードを入力、mdドライバが完全に最適化されていないことがわかります。複数の連続した要求が生成される場合、md ドライバーはより大きな要求にマージされません。いくつかの一般的なケースでは、これはかなりのオーバーヘッドを引き起こす可能性があります。

大規模な読み取りまたは書き込みは最適化されます。ストライプと同じサイズのいくつかの要求に縮小され、最適に処理されます。

読み取りまたは書き込みが2つのストライプにまたがる場合、mdドライバは正しく動作します。すべてが一度の操作として扱われます。

小さな読み出しの場合、最初の読み込み後にデータがカーネルキャッシュにあるので問題はありません。したがって、多重連続読み取りは、低速のディスク帯域幅と比較して、CPUとメモリに小さなオーバーヘッドのみを課します。
たとえば、一度に100バイトずつ1 Gbのデータを読み取ります。カーネルはまずそれを512kbの読み取りに変換します。これは最小I / Oサイズであるため（ストライプサイズが512kbの場合）。したがって、次の100バイトはすでにカーネルキャッシュにあります。これは、RAIDではなくパーティションから読み取るのとまったく同じです。

ストライプサイズより小さい書き込みの場合、mdドライバは最初にストライプ全体をメモリに読み込み、メモリを新しいデータで上書きし、結果を計算し（パリティが使用されている場合）（主にRAID 5と6）コピーします。ディスクへの書き込み。
たとえば、一度に100バイトずつ1 Gbのデータを書き込みます。カーネルは最初に512kbのストリップを読み取り、メモリ内の必要な部分を上書きし、パリティが含まれている場合は結果を計算してディスクに書き込みます。次の100バイトを書き込むと、データはカーネルキャッシュにあるため、「512kbストリップの読み取り」のみが防止されます。したがって、メモリを上書きしてパリティを計算するのに多少のオーバーヘッドが発生しますが、データが同じストライプに書き戻されるため、オーバーヘッドが大きくなります。ここのカーネルコードは最適化されていません。

これらの繰り返し書き込みが正しくキャッシュされず、データが数秒後にディスクにフラッシュされる理由を理解するのに十分な調査は行われませんでした（ストライプごとに一度だけ）。キャッシュされた場合、オーバーヘッドは一部のCPUとメモリにすぎませんが、私の独自のベンチマークによると、CPUはまだ10％未満であり、I / Oがボトルネックを引き起こすことがわかりました。

書き込みが最適化されると、最小ストライプサイズは常に最適です。 4つのディスクを備えたRAID 6、4kセクタは8kbストライプを作成し、可能なすべての負荷に対して最高の読み書きスループットになります。

Question 3

すべてと同様に、中間点があります。ただし、問題の本質を理解するには、RAID2とRAID3（両方のタイプはほとんど使用されていません）を調べることをお勧めします。

ただし、これは基本的にIOレイテンシと同時データ転送に起因します。各読み取りIO操作には、ヘッドナビゲーションとドライブの回転に数ミリ秒のオーバーヘッドがあります。

データブロックが大きい場合、このペナルティの支払いは少なくなります。これは、より原始的な形式のプリフェッチと非常によく似ています。これらのオーバーヘッドのため、通常、データを要求するときに複数のデータチャンクをプリフェッチすることをお勧めします。統計的にはとにかく必要な可能性が高いからです。

しかし、最も重要なのはショーということです。同調厳密なルールではなく、アクション - ディスクに転送されるワークロードに応じてブロックサイズを設定する必要があります。ワークロードが混在しているかランダムである場合、これを行うことはますます困難になります。ブロックが大きいほどスループットが上がり、IO操作が減ります。通常IO操作はドライブ速度を制限する要因なので通常より大きな需要を作るのに役立ちます。

特定のユースケース（データベースなど）の場合、これは適用されない可能性があります。

Answer