JSON形式の高音テキストデータを処理し、それをテキストファイルに保存しています。リツイートには興味がなく、ほとんどのテキストを抽出するパーサーを作成しましたが、なぜかいくつかのリツイートも表示されます。だから、この問題に対する迅速な解決策を知りたいです。 RTで始まるテキストを削除することです。
したがって、ファイルのテキストは次のようになります。
`"RT ...... RT ....."`
「…」は文の別の言葉です。 「RT」という単語で始まる行を削除し、別のファイルに保存したいと思います。 RTで始まらないテキストの途中に同じ単語であるRTが表示されることがあるため、これらのテキストは削除しないでください。次のコマンドを試しましたが、わかりません。
grep -v "RT" twitterDataset.txt > clean_RT.txt
この問題に対する解決策を教えてくれたら、本当にありがとうございます。コードの説明も役に立ちます。
答え1
問題のファイルがプレーンテキストの場合は、次のことができます。
grep -v "^RT" twitterDataset.txt > clean_RT.txt
これは、文字列「RT」で始まる行と一致しません。