テキストの多いテキストファイルがあり、各単語を別の単語の下に配置したいと思います。どうすればいいですか?例えば。
cat PDF | less
word one, word two. Word three ?
私はそれらが必要です
word
one
word
two
Word
three
答え1
これは私がシーケンシングと呼ぶものではありません。
アルファベット以外のすべてのシーケンスを改行文字に圧縮して翻訳することができます。
tr -sc '[:alpha:]' '[\n*]' < PDF
または(少なくともGNU grepを使用して)シーケンスを一致させて出力します。言葉-o
このオプションを使用すると、1行に1つずつ文字(文字、10進数、および下線)を使用できます。
grep -o '\w*' PDF