WebページのコンテンツをWebページとまったく同じテキストファイルにダウンロードする方法は？

2024-5-30 • tag-icon

WebページのコンテンツをWebページとまったく同じテキストファイルにダウンロードする方法は？

Webページからいくつかの情報を抽出しようとしています。名前（ロシア北部中央シベリア）があり、Webページからその名前を含む行全体を抽出するとします。この問題を解決するために、lynxコマンド（）を使用してhttps://geofon.gfz-potsdam.de/eqinfo/list.phpWebページ（）をテキストファイルとしてダウンロードlynx --dump "https://geofon.gfz-potsdam.de/eqinfo/list.php" > text.txtし、「North Central Syria、Russia」という名前の行をgrepしようとしました。次の行はWebページの情報を示しており、すべての情報は連続しています。

2018-05-27 04:27:17 4.8 60.07°N 128.42°E    10  A       Northcentral Siberia, Russia

ただし、Webページをテキストファイルとしてダウンロードすると、上記の行は次のように2行に分割されます。

2018-05-27 04:27:17 4.8 60.07°N 128.42°E    10  A   Northcentral 
Siberia, Russia

この場合、フルネーム（ロシア北部シベリア）とgrepを使用して行を抽出しようとすると失敗します。この問題にどのように対処する必要がありますか？

答え1

-dumpその理由は、そのオプションを使用すると、lynx「画面」の幅が80列で、Webページの表形式などによって改行が発生すると仮定するためです。

パラメータを追加すると-width正しく機能します。

lynx -width=200 -dump "https://geofon.gfz-potsdam.de/eqinfo/list.php" > text.txt

答え1

関連情報