HTMLファイルをプレーンテキストでダウンロードするにはどうすればよいですか？ [コピー]

Question 1

ダウンロードできません。サーバーに存在しません。サーバーはHTMLを送信し、ブラウザの操作はそれを表示することです。その一部は表示テキストです。

実際、多くのWebページはかなり空であり、読んだときに関連コンテンツを読み込みます。

したがって、テキストを表示できる機能するブラウザが必要で、そのテキストをインポートする必要があります。

通常、実際にはスクリプト言語でブラウザをリモートで制御してこれを行います。特別な「デーモン」モードでブラウザを起動して接続し、特別に設計されたブラウザ制御インタフェース（WebDriver）を使用してURLに移動するように指示します。ブラウザが画面に表示される内容を適切にレンダリングするまでしばらく待ってからプレーンテキストファイルとして保存するように指示します。

Answer

ダウンロードできません。サーバーに存在しません。サーバーはHTMLを送信し、ブラウザの操作はそれを表示することです。その一部は表示テキストです。

実際、多くのWebページはかなり空であり、読んだときに関連コンテンツを読み込みます。

したがって、テキストを表示できる機能するブラウザが必要で、そのテキストをインポートする必要があります。

通常、実際にはスクリプト言語でブラウザをリモートで制御してこれを行います。特別な「デーモン」モードでブラウザを起動して接続し、特別に設計されたブラウザ制御インタフェース（WebDriver）を使用してURLに移動するように指示します。ブラウザが画面に表示される内容を適切にレンダリングするまでしばらく待ってからプレーンテキストファイルとして保存するように指示します。

Question 2

個人的に読書そのような理由で。

pandoc -t plain 'https://example.com/something/'

ファイルに保存するには：

pandoc -t plain 'https://example.com/something/' -o output.txt

明らかに、これはページを埋めるためにJavaScriptを使用しないほとんどのテキストWebサイトでのみ機能します。

Answer