HTMLファイルをプレーンテキストでダウンロードするにはどうすればよいですか? [コピー]

HTMLファイルをプレーンテキストでダウンロードするにはどうすればよいですか? [コピー]

人がまたはcurlを使用してWebページをダウンロードすると、wgetHTMLになります。

ただし、プレーンテキスト(HTML解析なし)でダウンロードするには、正確にまたはほぼ正確にダウンロードする必要があります。はっきり読んでWebブラウザでこれを行う方法はありますか(もちろん、画像/ビデオ/オーディオを省略)?

答え1

ダウンロードできません。サーバーに存在しません。サーバーはHTMLを送信し、ブラウザの操作はそれを表示することです。その一部は表示テキストです。

実際、多くのWebページはかなり空であり、読んだときに関連コンテンツを読み込みます。

したがって、テキストを表示できる機能するブラウザが必要で、そのテキストをインポートする必要があります。

通常、実際にはスクリプト言語でブラウザをリモートで制御してこれを行います。特別な「デーモン」モードでブラウザを起動して接続し、特別に設計されたブラウザ制御インタフェース(WebDriver)を使用してURLに移動するように指示します。ブラウザが画面に表示される内容を適切にレンダリングするまでしばらく待ってからプレーンテキストファイルとして保存するように指示します。

答え2

個人的に読書そのような理由で。

pandoc -t plain 'https://example.com/something/'

ファイルに保存するには:

pandoc -t plain 'https://example.com/something/' -o output.txt

明らかに、これはページを埋めるためにJavaScriptを使用しないほとんどのテキストWebサイトでのみ機能します。

関連情報