Webページからいくつかの情報を抽出しようとしています。名前(ロシア北部中央シベリア)があり、Webページからその名前を含む行全体を抽出するとします。この問題を解決するために、lynxコマンド()を使用してhttps://geofon.gfz-potsdam.de/eqinfo/list.php
Webページ()をテキストファイルとしてダウンロードlynx --dump "https://geofon.gfz-potsdam.de/eqinfo/list.php" > text.txt
し、「North Central Syria、Russia」という名前の行をgrepしようとしました。次の行はWebページの情報を示しており、すべての情報は連続しています。
2018-05-27 04:27:17 4.8 60.07°N 128.42°E 10 A Northcentral Siberia, Russia
ただし、Webページをテキストファイルとしてダウンロードすると、上記の行は次のように2行に分割されます。
2018-05-27 04:27:17 4.8 60.07°N 128.42°E 10 A Northcentral
Siberia, Russia
この場合、フルネーム(ロシア北部シベリア)とgrepを使用して行を抽出しようとすると失敗します。この問題にどのように対処する必要がありますか?
答え1
-dump
その理由は、そのオプションを使用すると、lynx
「画面」の幅が80列で、Webページの表形式などによって改行が発生すると仮定するためです。
パラメータを追加すると-width
正しく機能します。
lynx -width=200 -dump "https://geofon.gfz-potsdam.de/eqinfo/list.php" > text.txt