私は大変です。これは非常に簡単な質問です。twarc
I'm runningというコマンドラインユーティリティがあります。これにより、かなり大きなファイルを作成できます。引き続き実行し、ダウンストリーム処理のために5GBのファイルを生成したいと思います。次のコマンドを実行しようとしています。
twarc "wordlist" > outputfile.jsonl | split -b 5G
ちなみに1日の朝にファイルが10.4GBに増えました。手動で実行することもできますが、したく| split -b 5G
ありません。
私は分割(GNU coreutils 8.25)とWindows Linuxサブシステムを使用しています。
答え1
コメントを見ると答えがすぐ目の前にありました!
問題は、私がコマンドの標準出力を書いていることです。ファイルとして、効果的にコマンドを終了します。これをパイプに分割するには、次のものが必要です。ファイルに書き込まない。たとえば、
twarc "wordslist" | split -b 1G
他の人に役立つことを願っています!