![シェルスクリプトを使用して大規模コーパスのデータをフィルタリングする方法は? [閉鎖]](https://linux33.com/image/15398/%E3%82%B7%E3%82%A7%E3%83%AB%E3%82%B9%E3%82%AF%E3%83%AA%E3%83%97%E3%83%88%E3%82%92%E4%BD%BF%E7%94%A8%E3%81%97%E3%81%A6%E5%A4%A7%E8%A6%8F%E6%A8%A1%E3%82%B3%E3%83%BC%E3%83%91%E3%82%B9%E3%81%AE%E3%83%87%E3%83%BC%E3%82%BF%E3%82%92%E3%83%95%E3%82%A3%E3%83%AB%E3%82%BF%E3%83%AA%E3%83%B3%E3%82%B0%E3%81%99%E3%82%8B%E6%96%B9%E6%B3%95%E3%81%AF%EF%BC%9F%20%5B%E9%96%89%E9%8E%96%5D.png)
大規模なTwitterコーパスからツイートを抽出し、ツイートが投稿された特定の場所でフィルタリングしたいと思います。それからツイートで特定の単語を検索したいと思います。 tsvファイルのすべてのツイートを一覧表示するコマンドがあります。
$ zless location/of/tweets.out.gz | /net/corpora/twitter2/tools/tweet2tab -i user.location text
これにより、タブで区切られた次の出力が表示されます。
user.location tweet
今のツイートを一覧表示したいですlocation: Amsterdam
。その後、word: hallo
アムステルダムのすべてのツイートを検索してください。シェルスクリプトを使用してこの問題を解決するための最良の方法は何ですか?