プレーンテキストファイルの読み取りパフォーマンスの向上

Question 1

Linuxカーネルはキャッシュ管理を自動的に実行します。 RAMにロードされたすべてのエントリは、他のプロセスでRAMが必要になり、使用可能なメモリがなくなるまでそのまま残ります。したがって、LinuxカーネルではRAMがいっぱいになっている必要があります。システムには128 GBのRAMがあり、これは100〜1000 MBのファイルを保存するのに十分です。

大容量ファイルをRAMにロードするには、次の手順を実行しますcat。

cat huge_file > /dev/null 2>&1

すべての出力はに転送されますが、/dev/nullこれを行うにはシステムRAMを通過する必要があります。これにより、どのようにCached増加するかを確認できます/proc/meminfo。

完了したら、catRubyアプリケーションを実行します。 Rubyアプリケーションは、大容量ファイルのキャッシュされたバージョンを読み込みます。

Answer

Linuxカーネルはキャッシュ管理を自動的に実行します。 RAMにロードされたすべてのエントリは、他のプロセスでRAMが必要になり、使用可能なメモリがなくなるまでそのまま残ります。したがって、LinuxカーネルではRAMがいっぱいになっている必要があります。システムには128 GBのRAMがあり、これは100〜1000 MBのファイルを保存するのに十分です。

大容量ファイルをRAMにロードするには、次の手順を実行しますcat。

cat huge_file > /dev/null 2>&1

すべての出力はに転送されますが、/dev/nullこれを行うにはシステムRAMを通過する必要があります。これにより、どのようにCached増加するかを確認できます/proc/meminfo。

完了したら、catRubyアプリケーションを実行します。 Rubyアプリケーションは、大容量ファイルのキャッシュされたバージョンを読み込みます。

Question 2

dd以前の内容をすべて読み取らずにファイルの一部を読み取るために使用されます。あなたの例（バイト4,120,000-4,120,400を読む）の場合は、次のものを使用できます。

dd bs=400 スキップ=10300 個=1 if=入力ファイル  =の出力ファイル

これは400バイトの論理ブロックサイズを定義し、dd入力ファイル（）ifの最初の10300個の「論理ブロック」をスキップするように指示します。 10,300は4,120,000¼ 400です。次に、count=1400バイトブロック（）を読み取り、それを出力ファイル（of）に書き込みます。仕様を省略すると、of標準 dd出力が作成され、パイプで接続できます。

開始点（オフセット）がブロックサイズの整数倍を保証しない場合（または下痢であっても）、次のようなより厳しい操作を実行できます。

(dd bs=10000 スキップ=412 個数=0; dd bs=400 個数=1 個=出力ファイル)<入力ファイル

または

(dd bs=4120000 スキップ=1個数=0; dd bs=400個数=1個=出力ファイル)<入力ファイル

どこ

同様に、仕様を省略することができ、ofこれは標準出力に書き込まれます。
指定せずddに実行すると、標準入力から読み込まれます。if完全なコマンドグループへの標準入力は(dd …; dd …)最後から来ます。< your_input_file
最初のコマンドは検索のみであるddため、データの読み書きはできません。count=0
ddどちらのコマンドも同じI / Oリダイレクトから標準入力を受け取るため、最初のコマンドで実行された照会は2番目のコマンドで表されるファイルポインタに影響します。

Answer

dd以前の内容をすべて読み取らずにファイルの一部を読み取るために使用されます。あなたの例（バイト4,120,000-4,120,400を読む）の場合は、次のものを使用できます。

dd bs=400 スキップ=10300 個=1 if=入力ファイル  =の出力ファイル

これは400バイトの論理ブロックサイズを定義し、dd入力ファイル（）ifの最初の10300個の「論理ブロック」をスキップするように指示します。 10,300は4,120,000¼ 400です。次に、count=1400バイトブロック（）を読み取り、それを出力ファイル（of）に書き込みます。仕様を省略すると、of標準 dd出力が作成され、パイプで接続できます。

開始点（オフセット）がブロックサイズの整数倍を保証しない場合（または下痢であっても）、次のようなより厳しい操作を実行できます。

(dd bs=10000 スキップ=412 個数=0; dd bs=400 個数=1 個=出力ファイル)<入力ファイル

または

(dd bs=4120000 スキップ=1個数=0; dd bs=400個数=1個=出力ファイル)<入力ファイル

どこ

同様に、仕様を省略することができ、ofこれは標準出力に書き込まれます。
指定せずddに実行すると、標準入力から読み込まれます。if完全なコマンドグループへの標準入力は(dd …; dd …)最後から来ます。< your_input_file
最初のコマンドは検索のみであるddため、データの読み書きはできません。count=0
ddどちらのコマンドも同じI / Oリダイレクトから標準入力を受け取るため、最初のコマンドで実行された照会は2番目のコマンドで表されるファイルポインタに影響します。

プレーンテキストファイルの読み取りパフォーマンスの向上

答え1

答え2

関連情報