私が尋ねるのと似たようないくつかの質問を見ましたが、例えばwgetコマンドの後に得られたすべてのhtmlファイルをテキストファイルに変換するには?
私も一つ見たブログ投稿それはそれがどのように機能するかを説明してみました。ローカルで試してみたところ、これはうまくいくことがわかりましたが、ローカルファイル、つまり/usr/share/doc/$PACKAGENAME/index.htmlにあるファイルとその中にリンクされたページ数が必要です。少なくとも最初のページを取得するより簡単な方法です。
私は次のようなことをしようとします -
html2text file:///usr/share/doc/$PACKAGENAME/html/index.html > packagename-doc.txt
しかし、それはうまくいきませんでした。
私は出力を得る -
Cannot open input file "file:///usr/share/doc/$PACKAGENAME/html/index.html".
重要ではないので、パッケージ名を明らかにしませんでした。最近では、manやinfoの代わりにhtmlページにドキュメントを提供するパッケージがたくさんありますが、これは完全にトピックから外れています。
誰かが理由を話すか、html2textまたは単純な方法でこれを行う他のツールを使用して代替手段を提供できますか?
答え1
@Karkouchの考えが正しいです。- この部分を削除する必要がありますfile://
。シェルツールは通常、URLをパラメータとして理解または期待しません。
実際、file:///[…]/html/index.html
有効なパスです、しかしというディレクトリのファイルを指すように、最後にというhtml
ディレクトリのファイルを指します。PWD
file:
複数のスラッシュは単に単一のスラッシュとして扱われます。、見えるすべての文字(およびほとんどの見えない文字)は* nixパスで有効です。パスで唯一無効な文字は NUL です。