各断片のすべての書式を失うことなくHTMLファイルを分割する方法はありますか?

各断片のすべての書式を失うことなくHTMLファイルを分割する方法はありますか?

だから分割コマンドファイルを複数の部分に分割します。しかし、問題は、1つのファイルにのみHTMLヘッダーが含まれ、1つのファイルにのみHTMLフッターが含まれることです。

(これはヘッダー/フッター情報を含む他の多くのファイルに関連する可能性があります。)

答え1

ほとんどのUNIXツール(例split:)はファイル形式に依存しません。特定の形式(HTMLなど)を使用するファイルを有効な形式のより小さなファイルに分割するには、特定のツールを使用します。 HTML分割の場合、htmldocオンラインで素早く見つけた最初のコンテンツでした。すでにパッケージされています(少なくともdebian、ubuntu、fedora、gentooなどでは...)。

するいいえsedいつかは逆効果を生み出すので、ファイルについて面倒な仮定をしたい場合は、-ishトリックを使用してください。

答え2

まず、ソースファイルのヘッダー/フッターを抽出および削除してから分割し、抽出したヘッダー/フッターを各パーティションに追加できます。

xpathまたはを使用してsedソースファイルを編集できます。

たとえば、次のコマンドラインはファイルのヘッダーとフッターを削除します。

$ sed -e '0,/<body>/d' -e '/<\/body>/,$d input.html

ここで、sedはGNUバージョンで、bodyタグは独自の行にあると見なされます。

関連情報