大容量ファイルを追加/追加する簡単な方法[閉じる]

Question 1

いくつかのアイデア：
1. - 各行で繰り返しカットを呼び出すのではなく、読み取りを活用します。
切り取る変数のリストは次の' 'とおりです。

projectName 1
filepath 2
numbers 3
lang 9
cloneID 10
cloneSubID 11
minToken 12
stride 13
similarity 14

これは次のことを読んで直接行うことができます。

while read -r projectName filepath numbers a a a a a lang cloneID cloneSubID minToken stride similarity;

生産ラインは長いが処理時間は短い。変数aは、未使用の値のスペースを埋めるために存在します。

2.- ':'で割る変数番号を再処理するには、次のようにすることができます（あなたの質問にはbashタグが付けられています）。

IFS=':' read -r a linestart length <<<"$numbers"

これにより、コードは次のように単純化されます。

while read -r projectName filepath numbers a a a a a lang cloneID cloneSubID minToken stride similarity;
do
    IFS=':' read -r a linestart length <<<"$numbers"

    currentLine=$linestart
    endLine=$((linestart + length))

    while [ $currentLine -lt $endLine ]; do
        echo "$projectName, $filepath, $lang, $linestart, $currentLine, $cloneID, $cloneSubID, $minToken, $stride, $similarity"
        currentLine=$((currentLine + 1))
    done
done < $filename >>$outputfile

3.- 2番目のスクリプトでは、sub1および/またはsub2変数が何であるかについての説明はありません。

4. - 一般的に言えば、スクリプトを一連の小さなスクリプトに分割できる場合は、各スクリプトの時間を測定して時間がかかる領域を見つけることができます。

5. - そして他の答えが示すように、ファイル（およびすべての中間結果）をメモリパーティションに配置すると、最初のファイルをより速く読み取ることができます。後でスクリプトを実行すると、メモリ内キャッシュから読み取られ、改善が隠されます。このガイド役に立ちます。

Answer

いくつかのアイデア：
1. - 各行で繰り返しカットを呼び出すのではなく、読み取りを活用します。
切り取る変数のリストは次の' 'とおりです。

projectName 1
filepath 2
numbers 3
lang 9
cloneID 10
cloneSubID 11
minToken 12
stride 13
similarity 14

これは次のことを読んで直接行うことができます。

while read -r projectName filepath numbers a a a a a lang cloneID cloneSubID minToken stride similarity;

生産ラインは長いが処理時間は短い。変数aは、未使用の値のスペースを埋めるために存在します。

2.- ':'で割る変数番号を再処理するには、次のようにすることができます（あなたの質問にはbashタグが付けられています）。

IFS=':' read -r a linestart length <<<"$numbers"

これにより、コードは次のように単純化されます。

while read -r projectName filepath numbers a a a a a lang cloneID cloneSubID minToken stride similarity;
do
    IFS=':' read -r a linestart length <<<"$numbers"

    currentLine=$linestart
    endLine=$((linestart + length))

    while [ $currentLine -lt $endLine ]; do
        echo "$projectName, $filepath, $lang, $linestart, $currentLine, $cloneID, $cloneSubID, $minToken, $stride, $similarity"
        currentLine=$((currentLine + 1))
    done
done < $filename >>$outputfile

3.- 2番目のスクリプトでは、sub1および/またはsub2変数が何であるかについての説明はありません。

4. - 一般的に言えば、スクリプトを一連の小さなスクリプトに分割できる場合は、各スクリプトの時間を測定して時間がかかる領域を見つけることができます。

5. - そして他の答えが示すように、ファイル（およびすべての中間結果）をメモリパーティションに配置すると、最初のファイルをより速く読み取ることができます。後でスクリプトを実行すると、メモリ内キャッシュから読み取られ、改善が隠されます。このガイド役に立ちます。

Question 2

メモリ常駐ファイルシステムである/dev/shmにファイルを入れてみましたか？ファイルの読み取りと書き込みへのアクセス速度が向上します。最後に、shmから永続ディスクパーティションにファイルをコピーできます。

Answer

メモリ常駐ファイルシステムである/dev/shmにファイルを入れてみましたか？ファイルの読み取りと書き込みへのアクセス速度が向上します。最後に、shmから永続ディスクパーティションにファイルをコピーできます。

Question 3

一つここで問題は、次のようにすることです。

while : loop
do    : processing
      echo "$results" >>output
done  <input

これにより、各反復の実行時間が劇的に増加する。outputopen()前回よりわずかに大きいオフセットで** edを繰り返します。私は言った慎重にあるからほぼ前のオフセットでファイルを開くのにかかる時間と、後のオフセットでファイルを開くのにかかる時間に差はありません。一部。そして毎回あなたはopen() O_APPEND前回ypuがあった場所より少し遠い場所でこれを行っています。かかる時間はディスク構成/基本ファイルシステムによって異なりますが、一部発生あたりのコストは、ファイルサイズが増加するにつれてある程度増加します。

おそらく、次のいずれかを実行する必要があります。open()そして維持するwrite()ループ寿命周期の説明です。次のようにすることもできます。

while : loop
do    : processing
      echo "$results"
done  <input >>output

これが主な理由ではないかもしれません。私にとっては、これが最も明白な理由であり、おそらく繰り返しの増加に直接関連していると思います。しかし、ループでは発生してはならない多くのことが起こっています。ループ反復ごとに10回以上のサブシェルデータ評価を実行しないでください。ベストプラクティスは何もしないことです。通常、ブランチなしで最初から最後まで完全に実行できるようにスタンドアロンシェルループを効率的に構築できない場合は、まったく実行しないでください。

代わりに、こことそこをスライスして評価を管理できるツールを使用して評価に集中する必要があります。TVシリーズ- これはよく書かれたパイプラインがどのように機能するかです。すべてのループ反復で多くの無限ループをキャッチする代わりに。次のように考えてみてください。

input |
(Single app single loop) |
(Single app single loop) |
(Single app single loop) |
output

これは、各単一ループが前のループと同時に実行されるパイプラインです。

しかし、あなたはむしろ以下が欲しいです：

input |
(Single app \
        (input slice|single app single loop);
        (input slice|single app single loop);
        (input slice|single app single loop);
 single loop) |
 output

これがサブシェルに依存するシェルループがどのように機能するかです。とにかくこれは効率的ではなく、入力と出力がバッファリングされないことも役に立ちません。

サブシェルは悪いことではありません。評価コンテキストを含む便利な方法です。ただし、より良い準備や条件付き入力または出力に必要なので、すべての種類のループの前後に適用することがほぼ常に最善です。より効率的なサイクルに適しています。これらのタスクを繰り返し実行するのではなく、時間をかけて最初に正しく設定してから、起動した後は他のタスクを実行しないでください。

Answer