背景:リーダーモード、Safariなどのブラウザに表示されているように抽出メインコンテンツ~の記事に基づいてWebページは洗練された経験的な方法を使用し、非常に読みやすいフォントで表示されます。
すべてのナビゲーション、ヘッダー、フッター、その他のコンテンツが削除されます。このモードは「記事」でのみ機能します。ニュース記事、科学論文など「主要コンテンツ」を含むページ
質問:そこにオープンソース端末の実装(例:プレーンテキスト)?それとも同じことをする他の方法はありますか?
例: この New York Times の記事では、以下を出力する必要があります。
$ utility --reader-mode https://www.nytimes.com/2019/01/30/reader-center/polar-vortex-tips.html
SEND US YOUR IDEAS FOR WHAT TO DO DURING THE POLAR VORTEX. WE
WANT TO HEAR FROM YOU.
It’s so cold in much of the Midwest today that you could get
frostbite within five minutes once you step outside. If you’re
living through it indoors, give us your tips.
A commuter during an extremely light morning rush hour in Chicago
on Wednesday. Businesses and schools have closed as the city
copes with record low temperatures.
Across the Midwest, where wind chills were minus 51 in
Minneapolis and minus 45 in Chicago, the risks of going outside
on Wednesday were dire. So, many people simply didn’t bother,
while others took a chance to briefly experience the coldest
weather in a generation.
Whether you’re an adventurer or a hibernator, tell us your
recommendations for staying warm and busy. What are you cooking
or binge-watching? What board games are you playing? If you’re
venturing outside, what are you doing to stay safe? (Experts warn
that even a short time in the extreme cold can be very
dangerous.) How many layers of clothing are you wearing, and
which special hats and gloves are necessary? Send us your photos
and your stories.
答え1
私は読みやすい-cli(https://gitlab.com/gardenappl/readability-cli)と読み取り(https://pandoc.org/)。例えば
% readable https://www.nytimes.com/2019/01/30/reader-center/polar-vortex-tips.html | pandoc -f html - -t plain
Send Us Your Ideas for What to Do During the Polar Vortex. We Want to Hear From You.
It’s so cold in much of the Midwest today that you could get frostbite
within five minutes once you step outside. If you’re living through it
indoors, give us your tips.
[Credit...Scott Olson/Getty Images]
Across the Midwest, where wind chills were minus 51 in Minneapolis and
minus 45 in Chicago, the risks of going outside on Wednesday were dire.
So, many people simply didn’t bother, while others took a chance to
など。これはNodeプロジェクトなので、人々は依存関係の脆弱性について知りたいので、自分で判断してください。 (ちなみに、このページのようなstackexchange.comリンクでは正しく機能しません:-)
答え2
のコメント「ナビゲーションコンテンツ」によって-nolist
次のオプション
lynx -nolist -dump www.google.com > file.txt
リンクなどは表示されません。
$ lynx -nolist -dump www.google.com > file.txt
$ cat file.txt
Search Images Maps Play YouTube News Gmail Drive More »
Web History | Settings | Sign in
Google
_______________________________________________________
Google Search I'm Feeling Lucky Advanced search
Language tools
Advertising Programs Business Solutions +Google About
Google
© 2019 - Privacy - Terms
w3m
次の内容を提供しますが、オプションはありません。
$ w3m -dump https://www.google.com
Search Images Maps Play YouTube News Gmail Drive More >>
Web History | Settings | Sign in
Google
[ ] Advanced
searchLanguage
[Google Search][I'm Feeling Lucky] tools
Advertising ProgramsBusiness Solutions+GoogleAbout Google
(C) 2019 - Privacy - Terms
links2
出力は次のとおりです。w3m
(前に欠けているスペースがあることに注意してください。~について):
$ links2 -dump www.google.com
Search Images Maps Play YouTube News Gmail Drive More >>========(97,1) 31% ==
Web History | Settings | Sign in
Google
__________________________________________________________ Advanced
[ Google Search ] [ I'm Feeling Lucky ] searchLanguage
tools
Advertising ProgramsBusiness Solutions+GoogleAbout Google
(c) 2019 - Privacy - Terms
$ links2 -dump www.google.com >file.txt
$ cat file.txt
Search Images Maps Play YouTube News Gmail Drive More >>
Web History | Settings | Sign in
Google
__________________________________________________________ Advanced
[ Google Search ] [ I'm Feeling Lucky ] searchLanguage
tools
Advertising ProgramsBusiness Solutions+GoogleAbout Google
(c) 2019 - Privacy - Terms
(奇妙なことに、ダンプが端末に直接入ると、進行状況も印刷されます。良い機能ではありません。)elinks
明らかに「検索コンテンツ」を持つ形式のみがダンプされます(ymmv)。
追加のコメントを見ると、OPが特定のコンテンツをレンダリングできることに興味があることがわかりました。分配するページから。サイズ比較源泉そしてダンプこのページはいくつかの手がかりを提供します。
サイズバッファ名の内容 ------- ------- ---------- -------------------------- ----------- ---------------- 0# 267624 [!lynx -source ht-1] !lynx -source https://www.nytimes.com/2019/01/30/reader-center/pola-vortex-tips.html 1 5475 [!lynx -dump -nolis] !lynx -dump -nolist https://www.nytimes.com/2019/01/30/reader-center/pola-vortex-tips.html
表示されるダンプはソースサイズの約2%です。ページコンテンツのほとんどは情報を提供せず、テキストブラウザに情報が表示されます。しかし、分配する要求されたのは次の2行ブロックです(開始部分のみ:最初の行は実際には62265数値):
<div id="app"><div class="css-v89234 e3w10z60"><div><div><div class="css-13lpfd6 e1nre7570"><header class="css-1bymuyk e1>
<script>window.__preloadedData = {"initialState":{"Article:QXJ0aWNsZTpueXQ6Ly9hcnRpY2xlLzBhODc0MTcxLWM0MjEtNWRjOS1hN2IzLW>
最初の行には記事のテキスト(多くのマークアップを含む)が含まれています。 2行目は、GUIブラウザで検出された記事を表示するために使用されるスクリプトである可能性があるため、自由に見てください。上記のテキストブラウザのどれも、与えられたスクリプトを表示したり、このように解釈する機能を持っていません<div>...</div>
。この記事では、複数のGUIブラウザでリーダーモードの標準URIが不足していると述べています。
答え3
これはあなたの要件を満たしていますか? (からhttps://stackoverflow.com/questions/12422289/bash-command-to-convert-html-page-to-a-text-file)
lynx --dump www.google.com > file.txt