2番目の列に4単語以下の行を表示します。

Question 1

次のAWKスクリプトは元の行をxに保存し、すべてのタグを削除して単語数を計算します（最初のフィールドのファイル名を減らすには1を減算します）。単語数が5未満の場合は、元の行を印刷します。

awk '{x=$0; gsub(/<[^>]*>/, "")} NF-1<5 {print x}' filename

Answer

次のAWKスクリプトは元の行をxに保存し、すべてのタグを削除して単語数を計算します（最初のフィールドのファイル名を減らすには1を減算します）。単語数が5未満の場合は、元の行を印刷します。

awk '{x=$0; gsub(/<[^>]*>/, "")} NF-1<5 {print x}' filename

Question 2

できるこれを行うには、小さなPythonスクリプトを使用してください。

#!/usr/bin/env python3
import sys

for l in open(sys.argv[1]).readlines():
    l = l.strip()
    print(l) if len([s for s in l.split("<s>")[-1].split()
             if not all([s.startswith("<"), s.endswith(">")])]) <= 4 else ("")

以下をインストールしたとしますpython3。

空のファイルにコピーして別の名前で保存してくださいget_colls.py
ファイルを引数として使用して実行します。
```
python3 /path/to/get_colls.py <file>
```

出力例：

M07UP49A0870I422.wav    <s> haraa keelaa <bn> </s>
M07UP49A0870I423.wav    <s> <horn> jau <babble>  </s>

説明する

スクリプト：

区切り記号で行を分割する<s>
2番目の部分では、文字列の数を数え、いいえで始まり、<で終わる>
<=長さ4の行を出力します。

Answer

できるこれを行うには、小さなPythonスクリプトを使用してください。

#!/usr/bin/env python3
import sys

for l in open(sys.argv[1]).readlines():
    l = l.strip()
    print(l) if len([s for s in l.split("<s>")[-1].split()
             if not all([s.startswith("<"), s.endswith(">")])]) <= 4 else ("")

以下をインストールしたとしますpython3。

空のファイルにコピーして別の名前で保存してくださいget_colls.py
ファイルを引数として使用して実行します。
```
python3 /path/to/get_colls.py <file>
```

出力例：

M07UP49A0870I422.wav    <s> haraa keelaa <bn> </s>
M07UP49A0870I423.wav    <s> <horn> jau <babble>  </s>

説明する

スクリプト：

区切り記号で行を分割する<s>
2番目の部分では、文字列の数を数え、いいえで始まり、<で終わる>
<=長さ4の行を出力します。

Question 3

awkを使うおそらくここが一番良いでしょう。アイデアを明確に表現できるからです（タグを削除すると、最初の列を除いて最大4つの単語しか残りません）。ただし、行フィルタリングだけでフィルタは正規表現で記述できるため、grepを使用してこれを行うこともできます。

grep -vE '^ *[^ ]+((<[^>]*>| )+[^<> ]+){5}'

-v: 一致する行を除外
-E：拡張正規表現構文を使用します。
^ *[^ ]+行の先頭の最初の単語と一致します。
(…){5}括弧内には5つ以上の項目を示します。
(<[^>]*>| )+空でない空白とタブのシーケンスと一致します。
[^<> ]+タグではなく単語の一致

Answer

awkを使うおそらくここが一番良いでしょう。アイデアを明確に表現できるからです（タグを削除すると、最初の列を除いて最大4つの単語しか残りません）。ただし、行フィルタリングだけでフィルタは正規表現で記述できるため、grepを使用してこれを行うこともできます。

grep -vE '^ *[^ ]+((<[^>]*>| )+[^<> ]+){5}'

-v: 一致する行を除外
-E：拡張正規表現構文を使用します。
^ *[^ ]+行の先頭の最初の単語と一致します。
(…){5}括弧内には5つ以上の項目を示します。
(<[^>]*>| )+空でない空白とタブのシーケンスと一致します。
[^<> ]+タグではなく単語の一致

Question 4

次のコマンドが機能するはずです。

awk -F "wav" '{print $2}' file | awk '{gsub("<[^>]*>", "")}1' | awk 'NF<4'

Answer

次のコマンドが機能するはずです。

awk -F "wav" '{print $2}' file | awk '{gsub("<[^>]*>", "")}1' | awk 'NF<4'

2番目の列に4単語以下の行を表示します。

答え1

答え2

説明する

答え3

答え4

関連情報