いくつかのことを明確にするために、2022年11月13日(DD-MM-YYYY)に修正されました。
CloudFlareで保護されているWebサイトのテキストコンテンツを簡単に読みたいです。はい、私はこの保護がスパムボットが害を及ぼすのを防ぐのに役立つことを知っています。 しかし、私は一人です。私の人間性を証明する機会さえ得られなかったようでした。私が望むのは、テキストブラウザでウェブサイトを読むことだけです。人間ができるように、いくつかの情報を保存する方が良いでしょう。
私は文明のように、単にウェブサイトのテキストの内容を読むことが間違っていたり、違法だとは思わない。それが当初、ウェブサイトが情報を提供する理由ではないでしょうか?
こんにちはスタックエクスチェンジコミュニティです!
コーディング中に数時間調査し、さまざまな作業を試してみました。
だから、私の仕事は実際にはとても簡単です。。 (例:バッチ処理)を実行したいと思います。スクリプト、ウェブサイトを訪問し、HTML出力の保存テキストファイルとして。
問題があるウェブサイト情報:はいCloudFlareで保護;JavaScript必要、リンスはサポートしていません)。
したがって、私はJavaやLinuxを何らかの方法で(例えばバッチ処理)使用して簡単なソリューションを開発したいと思います。そうしてこそできるだけ軽く-それは私の家です。頭痛始まったようです。
さまざまなプログラミング言語のすべてのヘッドレス(テキスト)ブラウザを要約することを目的としたオンラインリストをgithubで見つけました。残念ながら、ほとんどは約20の依存関係を使用する必要がありますが、私の考えではこれは適切でも実現可能でもありません。
また、StackOverflowについて調査中にかなり似たような質問を見つけました。このソリューションのように:カールまたはwgetを使用してURLをダウンロードすることはできませんが、ブラウザでは機能します。
したがって、カールを使用していくつかの起動パラメータを渡し、それを使用してJavaScript / CloudFlare障害を克服するソリューションがあるようです。
しかし、このコードを機能させることはできないようです。
これも私の問題をかなりよくまとめたようですが、残念ながら私には答えがありません。JSをサポートするブラウザを使用してWebページを保存するためのコマンドラインツール
次回見ている場所についてアドバイスできる人はいますか?
私の小さなプロジェクトは重要です。できるだけ軽く、人間のユーザー対話は必要ありません!
親愛なるコミュニティの皆さん、何らかの方法で私を助けてくれてありがとう!よろしくお願いします - 専門家の皆様のご意見をお待ちしています:-)