カールしたページをテキストとして読み込む

カールしたページをテキストとして読み込む

curlページを別の名前で保存するオプションはありますか?テキスト

つまり、ブラウザにページを保存するのと同じです。テキストファイル。少なくともFirefoxにはこのオプションがあります。

スクリプトとして必要です。次の操作を行います。

curl -s http://... 

ただし、すべてのHTMLコードなしで操作をより簡単に処理できます。

lynx私が望むことを達成するオプションを見つけましlynx -dumpたが、使用したいと思いますcurl

ありがとうございます。

答え1

あなたは考慮することができます読書は、タグ付き形式から別の形式にファイルを変換する強力なツールです。

curl -s URL | pandoc -f html -t plain

使い方は簡単です:

pandoc [OPTIONS] [FILES]
  -f FORMAT, -r FORMAT  --from=FORMAT, --read=FORMAT                    
  -t FORMAT, -w FORMAT  --to=FORMAT, --write=FORMAT                     
  -o FILE               --output=FILE                                   
                        --data-dir=DIRECTORY

移動できる形式を入力しpandoc --list-input-formatて確認します。pandoc --list-output-formats

答え2

lynxいいえ。次の方法を使用できます。

lynx -dump URL

直す。アクション。申し訳ありません。私はあなたがBobcatsを理解しているとは思わない。

この目的にお勧めしますlynx。通常、非常に読みやすい出力を生成します。場合によっては-width、出力幅を増やすためにオプションを使用する必要があります。

答え3

それでもcurlコマンドを使用してにパイプすることができますlynx。これは、認証または特定のカールパラメータを渡す必要がある場合に便利です。たとえば、

curl --config auth.cfg $URL | lynx -stdin -dump -width=100

その後、auth.cfgファイルパラメータを渡してURLにアクセスし、htmlページをプレーンテキスト(htmlタグやエスケープ文字なし)で印刷します。

答え4

curl命令ですファイル検索サーバーが送信したのとまったく同じ形式でWebサーバーから来ます。あなたが期待していたことHTMLファイルをプレーンテキストに変換、これはまったく異なる作業です。したがって、これを行うには別のツールが必要です。なぜなら、curlそんな道具ではないからです。

関連情報