私が間違っている場合は訂正してください。しかし、これはApache JenaやLinux用のWindowsサブシステムよりもUnixに多く適用されると思います。結局、これはsort
ログなしで消えるように見えるユーティリティです。
詳細なコースを踏んでいます。ここWikiデータをローカルのApache Jenaインスタンスにインポートします。私はWindows 10のLinuxサブシステムでUbuntu 20.04を使用しています。
データステップ(データインポート)はうまく機能しますが、インデックスステップ(ねえ)常に通知なしで競合が発生します。詳細は次のとおりです。
bashでこのスクリプトを実行しています(--phase data
正常に完了した後)。
apache-jena-3.15.0/bin/tdbloader2 --phase index --loc data/ > tdb1.log 2> tdb2.log &
これにより、tdb1.logに次の4つのログエントリが記録されます。
12:09:02 INFO -- TDB Bulk Loader Start
12:09:02 INFO Index Building Phase
12:09:02 INFO Creating Index SPO
12:09:02 INFO Sort SPO
このスクリプトはsort
内部で使用されます。実際、名前付きプロセスはsort
約20分間実行され、約15 GBのメモリを使用します。その後、個別のログを生成せずに、そのプロセスは予告なく消えます。
私の質問は、衝突の原因をどのように見つけることができるかということです。sort
一種の衝突ガイドラインまたは事後分析を作成する必要はありませんか?
役に立つなら、イェーナ文書説明する
ビルドのインデックス作成ステップでは、ソートユーティリティを使用してインデックス作成用の生データを準備します。これには多くのディスク容量が必要になる可能性があり、ディスク容量が不足していると思われる場合は、スクリプトが自動的に確認して警告/中断します。
この警告はどこで確認できますか?いいえ、ディスクの空き容量が100GBを超えるため、これが直接的な原因ではないようです。
答え1
出力でエラーが見つかりましたtdb2.log
(2>
パイプ演算子エラー)。
その結果、sort
ディスク容量が不足します。