bash コマンドは前のパイプの結果を出力します。

Question 1

whileループを使用してこれを行うことができます。

while read l; do
  [ ${#l} -gt 65 ] && \
    echo "$l" | langid --line | grep -q "is" && \
    echo "$l"
done <file

read l入力を1行ずつ読み、現在の行を変数に保存します$l。
[ ${#l} -gt 65 ]行に65文字を超える場合。
- echo "$l" | langid --line | grep -q "is"この行を処理するには、grep言語の場合は自動的に処理-qされますgrep。文字列が存在するかどうかを確認したい、出力はありません。
- echo "$l"文字列がある場合、元の行が印刷されます。
<fileコンテンツをfile入力として使用します。

編集する：上記のlangidコマンドは、各行でコマンドを実行するのに非常に遅いです。 1回の転送で（より速く）実行するには、次のようにします。

awk 'FNR==NR{a[NR]=$0}
  FNR!=NR&&$1~"is"{print a[FNR]}' \
<(sed -n '/^.\{65\}/p' file) \
<(sed -n '/^.\{65\}/p' file | langid --line)

awk２つの「ファイル」が処理される。
- 出力sed -n '/^.\{65\}/p' file：65文字以上のすべての文。
- 出力は、sed -n '/^.\{65\}/p' file | langid --line1回の転送で65文字以上の文字を含むすべての行を処理します。
中awk：
- FNR==NR最初の「ファイル」に適用
- a[NR]=$0行番号をインデックスとして使用して配列を埋める
- FNR!=NR&&$1~"is"2番目の「ファイル」を操作し、行に文字列が含まれていることを確認します。is
- print a[FNR]aその場合は、元の文を含む以前に作成された配列からその行を印刷します。

Answer

whileループを使用してこれを行うことができます。

while read l; do
  [ ${#l} -gt 65 ] && \
    echo "$l" | langid --line | grep -q "is" && \
    echo "$l"
done <file

read l入力を1行ずつ読み、現在の行を変数に保存します$l。
[ ${#l} -gt 65 ]行に65文字を超える場合。
- echo "$l" | langid --line | grep -q "is"この行を処理するには、grep言語の場合は自動的に処理-qされますgrep。文字列が存在するかどうかを確認したい、出力はありません。
- echo "$l"文字列がある場合、元の行が印刷されます。
<fileコンテンツをfile入力として使用します。

編集する：上記のlangidコマンドは、各行でコマンドを実行するのに非常に遅いです。 1回の転送で（より速く）実行するには、次のようにします。

awk 'FNR==NR{a[NR]=$0}
  FNR!=NR&&$1~"is"{print a[FNR]}' \
<(sed -n '/^.\{65\}/p' file) \
<(sed -n '/^.\{65\}/p' file | langid --line)

awk２つの「ファイル」が処理される。
- 出力sed -n '/^.\{65\}/p' file：65文字以上のすべての文。
- 出力は、sed -n '/^.\{65\}/p' file | langid --line1回の転送で65文字以上の文字を含むすべての行を処理します。
中awk：
- FNR==NR最初の「ファイル」に適用
- a[NR]=$0行番号をインデックスとして使用して配列を埋める
- FNR!=NR&&$1~"is"2番目の「ファイル」を操作し、行に文字列が含まれていることを確認します。is
- print a[FNR]aその場合は、元の文を含む以前に作成された配列からその行を印刷します。

Question 2

シェルがbashの場合は、次のことができます。

sed -n '/^.\{65\}/p' www.mbl.is | while read line ; do
   LANGID=$(echo "$line" | langid --line)
   if [[ "$LANGID" =~ is ]] ; then
      echo "$line: $LANGID"
   fi
done

langidただし、これは複数のインスタンス（各入力行に1つずつ）を実行するため、非常に遅くなります。 Githubの追加情報に記載されているように、langidを取得するPythonスクリプトを作成する方が良いかもしれません。上記のように、stdinを読み込み、それをstdinに渡す単純なループがトリックをlangid.classify()実行します。

私のPythonは非常に錆びており、langid.pyがインストールされていないのでテストされていませんが、以下は非常に原始的なPythonの例です.

#! /usr/bin/python

import langid, fileinput, re

for line in fileinput.input():
  if len(line) > 65:
    id = langid.classify(line)
    if re.match(r'is',id):
      print line, ": ", id

コンパイルテストに合格しましたが、python -m py_compile langtest.pyそれが私が有利だと言うことができるすべてです。

Frost Softwareによって追加された内容：

はるかに改善されており、おそらくテストされて動作するバージョンです。

#! /usr/bin/python

import sys, codecs, re
from fileinput import input as file
from langid import classify

#Output STDOUT as UTF-8
sys.stdout = codecs.getwriter("utf8")(sys.stdout)
sys.stderr = codecs.getwriter("utf8")(sys.stderr)

#read text as a positional argument and procss each line
for line in file():
    #check if line is greater than 65 characters
    if len(line) > 65:
        #determine the language of each line
        id = classify(line)
        #check if language is Icelandic
        if re.search('is', str(id)):
            #print the line and the langid classification 
            print line, ": ", id

パラメータといくつかのアドインを可能にするより包括的なPythonスクリプトもあります。ポイントコード

Answer