他の行に似ていますが、短い行を削除する方法は？

Question 1

2xawk合計を使用するsort：cut

awk '{print length($2), NR, $0}' file |
  sort -k1,1nr |
  awk '
  {
    for(i=1;i<=cnt;i++){
      split(lines[i], tmp)
      if ($3 == tmp[3] && $1 < tmp[1] && index(tmp[4], $4)) next
    }
    lines[++cnt]=$0
  }
  END{
    for(i=1;i<=cnt;i++) print lines[i]
  }' |
  sort -k2,2n |
  cut -d' ' -f3-

awk：シーケンスフィールドの長さ、行番号、元の行を印刷します。

sort：シーケンスフィールドの長さに応じて逆順に並べ替えると、次のようになります。

6 3 Espece_B GACCTT
6 4 Espece_B ATCTGG
5 5 Espece_C ACCTG
4 1 Espece_A ACGT
4 2 Espece_B ACCT
4 6 Espece_D ACCT

awk：削除しないレコードを配列に追加しますlines。各レコードに対して追加された配列項目を繰り返しテストします。
- 種名が同じ場合（$3 == tmp[3]）
- シーケンスが短い場合（$1 < tmp[1]）
- シーケンスが部分文字列（index(tmp[4], $4)）の場合
3つの条件がすべてtrueの場合はそのnextレコードにジャンプし、そうでない場合は現在のレコードを配列に追加します。ブロックの配列要素を印刷しますend。
sort：元の行番号によると
cut: 最初の 2 つのフィールドを削除

Answer

2xawk合計を使用するsort：cut

awk '{print length($2), NR, $0}' file |
  sort -k1,1nr |
  awk '
  {
    for(i=1;i<=cnt;i++){
      split(lines[i], tmp)
      if ($3 == tmp[3] && $1 < tmp[1] && index(tmp[4], $4)) next
    }
    lines[++cnt]=$0
  }
  END{
    for(i=1;i<=cnt;i++) print lines[i]
  }' |
  sort -k2,2n |
  cut -d' ' -f3-

awk：シーケンスフィールドの長さ、行番号、元の行を印刷します。

sort：シーケンスフィールドの長さに応じて逆順に並べ替えると、次のようになります。

6 3 Espece_B GACCTT
6 4 Espece_B ATCTGG
5 5 Espece_C ACCTG
4 1 Espece_A ACGT
4 2 Espece_B ACCT
4 6 Espece_D ACCT

awk：削除しないレコードを配列に追加しますlines。各レコードに対して追加された配列項目を繰り返しテストします。
- 種名が同じ場合（$3 == tmp[3]）
- シーケンスが短い場合（$1 < tmp[1]）
- シーケンスが部分文字列（index(tmp[4], $4)）の場合
3つの条件がすべてtrueの場合はそのnextレコードにジャンプし、そうでない場合は現在のレコードを配列に追加します。ブロックの配列要素を印刷しますend。
sort：元の行番号によると
cut: 最初の 2 つのフィールドを削除

Question 2

短いPythonプログラムはこれを行い、Bashで簡単に実行できます。

#!/usr/bin/env python3
import sys
last_line = ""
for line in sys.stdin:
    if len(line) > len(last_line) or line[0:-1] != last_line[0:len(line)-1]:
        print(line, end='')
    last_line = line

使用法:

上記のコードを次のファイルにコピーします。del_shorter.py
ファイルを実行可能にします。chmod +x del_shorter.py
逆ソートされたファイルを入力として使用し、出力を並べ替えます。

cat your_file.txt |sort -r |./del_short_matches.py |sort

Answer

短いPythonプログラムはこれを行い、Bashで簡単に実行できます。

#!/usr/bin/env python3
import sys
last_line = ""
for line in sys.stdin:
    if len(line) > len(last_line) or line[0:-1] != last_line[0:len(line)-1]:
        print(line, end='')
    last_line = line

使用法:

上記のコードを次のファイルにコピーします。del_shorter.py
ファイルを実行可能にします。chmod +x del_shorter.py
逆ソートされたファイルを入力として使用し、出力を並べ替えます。

cat your_file.txt |sort -r |./del_short_matches.py |sort

Question 3

ファイルが大きすぎない場合は、ここに大きなハンマーがあります。

while read s g; 
   do n=$(sed -nE "/"$s" .*"$g".*/p" file | wc -l); 
  [ $n -eq 1 ] && echo $s $g;  
done < file

species .*gene.*一意の一致のみが返されます。

Answer

ファイルが大きすぎない場合は、ここに大きなハンマーがあります。

while read s g; 
   do n=$(sed -nE "/"$s" .*"$g".*/p" file | wc -l); 
  [ $n -eq 1 ] && echo $s $g;  
done < file

species .*gene.*一意の一致のみが返されます。

他の行に似ていますが、短い行を削除する方法は？

答え1

答え2

答え3

関連情報