各断片のすべての書式を失うことなくHTMLファイルを分割する方法はありますか？

Question 1

ほとんどのUNIXツール（例split：）はファイル形式に依存しません。特定の形式（HTMLなど）を使用するファイルを有効な形式のより小さなファイルに分割するには、特定のツールを使用します。 HTML分割の場合、htmldocオンラインで素早く見つけた最初のコンテンツでした。すでにパッケージされています（少なくともdebian、ubuntu、fedora、gentooなどでは...）。

するいいえsedいつかは逆効果を生み出すので、ファイルについて面倒な仮定をしたい場合は、-ishトリックを使用してください。

Answer

ほとんどのUNIXツール（例split：）はファイル形式に依存しません。特定の形式（HTMLなど）を使用するファイルを有効な形式のより小さなファイルに分割するには、特定のツールを使用します。 HTML分割の場合、htmldocオンラインで素早く見つけた最初のコンテンツでした。すでにパッケージされています（少なくともdebian、ubuntu、fedora、gentooなどでは...）。

するいいえsedいつかは逆効果を生み出すので、ファイルについて面倒な仮定をしたい場合は、-ishトリックを使用してください。

Question 2

まず、ソースファイルのヘッダー/フッターを抽出および削除してから分割し、抽出したヘッダー/フッターを各パーティションに追加できます。

xpathまたはを使用してsedソースファイルを編集できます。

たとえば、次のコマンドラインはファイルのヘッダーとフッターを削除します。

$ sed -e '0,/<body>/d' -e '/<\/body>/,$d input.html

ここで、sedはGNUバージョンで、bodyタグは独自の行にあると見なされます。

Answer

まず、ソースファイルのヘッダー/フッターを抽出および削除してから分割し、抽出したヘッダー/フッターを各パーティションに追加できます。

xpathまたはを使用してsedソースファイルを編集できます。

たとえば、次のコマンドラインはファイルのヘッダーとフッターを削除します。

$ sed -e '0,/<body>/d' -e '/<\/body>/,$d input.html

ここで、sedはGNUバージョンで、bodyタグは独自の行にあると見なされます。

各断片のすべての書式を失うことなくHTMLファイルを分割する方法はありますか？

答え1

答え2

関連情報