私は数十の大きなtxtファイル(新聞記事)と次の行につながる新聞の単語の何千ものハイフンを持っています。次の2つの例のように、ハイフンとスペースがあり、残りの単語があります。
国連の措置の可能性
この問題が含まれないようにブロックすることもできます。
これらの問題を解決する方法についてのアドバイスはありますか?
答え1
sed 's/\([[:alpha:]]\)- \([[:alpha:]]\)/\1\2/g' < file.txt > file-processed.txt
<letter1>- <letter2>
に交換してください<letter1><letter2>
。
sed 's/- //g'
これは、代替ハイフンを使用する他の用途よりも過激ではない。13 - 4 = 9