large-files

GNUを使用して非常に長い行を並列に処理する
large-files

GNUを使用して非常に長い行を並列に処理する

データベースにリロードする前に編集(一部の検索/置換)が必要な非常に大きなSQLダンプファイル(30GB)があります。 ファイルサイズが大きいだけでなく、非常に長い行も含まれています。最初の40行と最後の12行を除いて、他のすべての行の長さは約1MBです。次の行はすべてINSERTO INTOコマンドで、すべて似ているようです。 cat bigdumpfile.sql | cut -c-100 INSERT INTO `table1` VALUES (951068,1407592,0.0267,0.0509,0.121),(285 INSERT INTO `...

Admin

EXT4非常に大きい(> 1GB)ファイルの場合:ブロックサイズを増やすか、ブロッククラスタを使用するか、またはその両方を使用しますか?
large-files

EXT4非常に大きい(> 1GB)ファイルの場合:ブロックサイズを増やすか、ブロッククラスタを使用するか、またはその両方を使用しますか?

12TB HDD(SSDではない)をフォーマットしたいです。EXT4を使う、大容量のビデオファイル(それぞれ最小1GiB)を保存します。 私はx86-64(つまりx64またはamd64)プロセッサを使用しています。 もちろん-T largefile4オプションですが、mkfs.ext4他の最適化は可能ですか? 私は特に次のことを知りたいです。 ブロックサイズを最大(64K、-b 65536)まで増やす必要がありますか? または使用する必要がありますか?ブロッククラスタ、クラスタサイズを最大値(256M、-C 268 435 456)に設定します。 それとも...

Admin

クラスタからストレージサーバーへの非常に大きなデータセットの転送
large-files

クラスタからストレージサーバーへの非常に大きなデータセットの転送

非常に大きなデータセット(ペタバイト単位で測定)をHPCクラスタからストレージサーバーに移動する必要がありました。我々は、デバイス間の大容量通信リンクを持っています。しかし、ボトルネックは、個々のファイルを並列化できる高速転送ツールのようです(各個々のファイルのサイズはテラバイトなので)。 この点で、私は管理者権限を必要とせず、scpやrsyncよりもはるかに高速なツールを探しています。管理者権限なしでローカルにインストールできるツールがあれば、それも役に立ちます。私はこのリンクを見つけました(2台のコンピュータ間で大量のデータを転送する最速の方法は何ですか...

Admin

rsync --appendは、コピーされたデータをすべて読み取らずに中断されたコピープロセスを再開できますか?
large-files

rsync --appendは、コピーされたデータをすべて読み取らずに中断されたコピープロセスを再開できますか?

同じコンピュータのある外付けドライブから別の外付けドライブに非常に大きなファイル(3TB)をコピーする必要があります。帯域幅が低いため、数日かかる場合があります。 そのため、複製を中断して再起動後に再開する必要がある場合に備えたいと思います。 ~から私は何を読んだのですか?私は利用できる rsync --append これを行うには(rsyncバージョン> 3)。フラグに関する2つの質問--append: 私はrsync --append使うみんな移動する? (最初に電話してみてください。いいえターゲットドライブに中断されたコピーがまだ存在し、そ...

Admin

初めて実行すると、cpはrsyncより高速ですか?
large-files

初めて実行すると、cpはrsyncより高速ですか?

私は現在、これを使用してrsyncSamsung Portable SSD T7からHPCクラスターに73 GBのファイルをコピーしています。 rsync -avh path/to/dataset [email protected]:/path/to/dest 以下が適用されます。 私のローカルコンピュータ(T7が接続されている)は、Ubuntu 20を実行しているVirtualBox VMです。 T7伝送速度は最大約2.5kmでなければなりません。 1000MB/秒 ネットワークは約7.9Mbpsのアップロード速度を提供しました。 これによれ...

Admin

大容量ファイルと進捗情報を比較する方法
large-files

大容量ファイルと進捗情報を比較する方法

Unixコマンドラインのコンテキストで2つの非常に大きなファイル(それぞれ約1TB)を可能な限り進行インジケータで比較したいと思います。 diff試してみましたが、cmpどちらもシステム(macOS Mojave)をクラッシュさせ、進行状況バーを表示します。 このように大容量ファイルを比較する最良の方法は何ですか? 追加の詳細: 私は彼らが同じであることを確認したいと思います。 cmpシステムが独自に再起動するようにシステムをクラッシュさせます。 :-( たぶんシステムのメモリが足りませんか? ...

Admin

「安全な」方法で大きな行ファイルでlessを使用する方法は?
large-files

「安全な」方法で大きな行ファイルでlessを使用する方法は?

私は約4Gigsの比較的大きなファイル、縮小されたjsonファイルを持っています。ファイルは大きくありませんが、1行のファイルなので、多くのプログラムが中断されます。 ファイルを開いてすぐに押すlessだけで正常に機能し、次のメッセージが表示されることを確認しました。ctrl-c 行番号がオフになっています(RETURNキーを押してください)。 しかし、私が使用しようとしている多くのコマンドは、検索(/)、ファイルの「終了」に移動(G)、および他の多くのコマンドなどのプログラムを停止します。less大きな一行ファイルで作業するときにどのコマンドを使用でき...

Admin

100行のうち99行をスキップ
large-files

100行のうち99行をスキップ

多くのログテキスト出力を生成するbashコマンドパイプラインがあります。ただし、ほとんどの場合、前の行を繰り返すので、デフォルトの出力データはタイムスタンプといくつかのマイナーなフラグを除いて数時間に一度だけ変更されます。将来の処理/研究のために、この出力をテキストファイルとして保存する必要があります。各Xの最初の行だけを印刷するには、どのようにパイプする必要がありますか? ...

Admin

特定のテキストを含む重複行を削除する
large-files

特定のテキストを含む重複行を削除する

百万行を含む大きなテキストファイルがあります。私の特定のテキストに一致する同じ行を見つけ、最初の項目をそのままにしたいと思います。どんなアイデアがありますか? したがって、アルゴリズムはおおよそ次のようになります。 For all lines in text file Find duplicate lines If duplicated line contains our text Remove all these lines except the first one たとえば、「Word」というテキストの重複行を探しています。 フ...

Admin

大容量ファイルを塊に分割して元のファイルを削除しますか?
large-files

大容量ファイルを塊に分割して元のファイルを削除しますか?

大容量のテキストファイル(30 GB)を処理するのに問題があります。 小さなファイル(5GBなど)を作成したいです。 しかし残念ながら、より多くのストレージスペースはありません(最大10Gのみ利用可能)。 この行は: split -b 5g "file.txt" "file.txt." 元のファイルを保持するとは、最終的に合計60GBのファイルを持つことになります。これは実際に私のコンピュータに残っているよりも多くのスペースです。 元のファイルを保持せずに同じ機能でコードを実行するにはどうすればよいですか? ...

Admin

Unisonが大容量ファイルを同期するのを防ぐ方法は?
large-files

Unisonが大容量ファイルを同期するのを防ぐ方法は?

使っていますUnisonファイル同期ソフトウェア設定が特定の正規表現または名前を持つ同期ファイルを無視することを知っています。しかし、大容量ファイル(10MB以上など)の同期を防ぐ方法はありますか? ignore = Name *.swp ignore = Path */env ignore = Path */build ホームインターネット接続が遅く、大容量ファイルを同期したくありません。 ...

Admin

既知の 2 つの文字列間の Grep コンテンツ
large-files

既知の 2 つの文字列間の Grep コンテンツ

圧縮された大容量ログファイルがあり、興味のあるテキストにどの行番号が使用されているかを識別できます。 find . -name "*" -exec zgrep -C 1 -n -i -H TextToFind {} \; しかし、2番目のコマンドでは、関心のある行番号を含む既知の2つの値の間の完全なメッセージを見つけたいと思います。私が望むテキストは、オープンとクローズの「実行」の間とファイルにありますが、特定の行番号を含むオープンとクローズの実行ブロックのみを返したいと思います。 たとえば、複数のテキスト文字列を含む大きな文書を介してWiggamを...

Admin

Arch(ホスト)とAndroidの間に共有フォルダが欲しい
large-files

Arch(ホスト)とAndroidの間に共有フォルダが欲しい

完全にオフライン音楽を含むほぼ10GBの音楽フォルダがあります。携帯電話に保存して持ち歩きたいです。最も簡単な答えは、携帯電話とPC間でファイルを転送することです。ただし、PCに新しく追加され削除された音楽に追いつくことはできません。 最善のアイデアは、VSFTPDを使用して携帯電話にクライアントをインストールして同期する方法を見つけることですが、より簡単な方法があると思います。 ありがとうございます! Dropbox、Google Driveは容量の問題では不可能です。とにかくGoogleドライブがいっぱいです。 ...

Admin