curl
ページを別の名前で保存するオプションはありますか?テキスト?
つまり、ブラウザにページを保存するのと同じです。テキストファイル。少なくともFirefoxにはこのオプションがあります。
スクリプトとして必要です。次の操作を行います。
curl -s http://...
ただし、すべてのHTMLコードなしで操作をより簡単に処理できます。
lynx
私が望むことを達成するオプションを見つけましlynx -dump
たが、使用したいと思いますcurl
。
ありがとうございます。
答え1
あなたは考慮することができます読書は、タグ付き形式から別の形式にファイルを変換する強力なツールです。
curl -s URL | pandoc -f html -t plain
使い方は簡単です:
pandoc [OPTIONS] [FILES]
-f FORMAT, -r FORMAT --from=FORMAT, --read=FORMAT
-t FORMAT, -w FORMAT --to=FORMAT, --write=FORMAT
-o FILE --output=FILE
--data-dir=DIRECTORY
移動できる形式を入力しpandoc --list-input-format
て確認します。pandoc --list-output-formats
答え2
lynx
いいえ。次の方法を使用できます。
lynx -dump URL
直す。アクション。申し訳ありません。私はあなたがBobcatsを理解しているとは思わない。
この目的にお勧めしますlynx
。通常、非常に読みやすい出力を生成します。場合によっては-width
、出力幅を増やすためにオプションを使用する必要があります。
答え3
それでもcurl
コマンドを使用してにパイプすることができますlynx
。これは、認証または特定のカールパラメータを渡す必要がある場合に便利です。たとえば、
curl --config auth.cfg $URL | lynx -stdin -dump -width=100
その後、auth.cfgファイルパラメータを渡してURLにアクセスし、htmlページをプレーンテキスト(htmlタグやエスケープ文字なし)で印刷します。
答え4
curl
命令ですファイル検索サーバーが送信したのとまったく同じ形式でWebサーバーから来ます。あなたが期待していたことHTMLファイルをプレーンテキストに変換、これはまったく異なる作業です。したがって、これを行うには別のツールが必要です。なぜなら、curl
そんな道具ではないからです。