PDFを電子ブック形式に変換する方法

Question 1

普通に使う口径、さまざまな形式（epub、mobi、pdf）から変換します。変換するのはとても簡単です。ここにスクリーンショットがあります。他の人そしてビデオチュートリアルしかも。

スクリーンショット

SS口径

Answer

普通に使う口径、さまざまな形式（epub、mobi、pdf）から変換します。変換するのはとても簡単です。ここにスクリーンショットがあります。他の人そしてビデオチュートリアルしかも。

スクリーンショット

SS口径

Question 2

試してみてくださいpdftotext（パッケージのUbuntuの下poppler-utils）。コマンドラインコンバータです。 PDFには画像だけでなくテキストも含まれているとします。

PDFファイルに画像（OCR情報なし）が含まれている場合は、はるかに遅いOCRソリューションを使用する必要があります。

私はまた、スクランブルされたPDFテキストにOCRメソッドを正常に使用しました（非線形方法でページに個々の文字を配置することによって）。たとえば、pdftoppmページの個々の画像を取得し、その画像をOCRするために使用できます。

Answer

試してみてくださいpdftotext（パッケージのUbuntuの下poppler-utils）。コマンドラインコンバータです。 PDFには画像だけでなくテキストも含まれているとします。

PDFファイルに画像（OCR情報なし）が含まれている場合は、はるかに遅いOCRソリューションを使用する必要があります。

私はまた、スクランブルされたPDFテキストにOCRメソッドを正常に使用しました（非線形方法でページに個々の文字を配置することによって）。たとえば、pdftoppmページの個々の画像を取得し、その画像をOCRするために使用できます。

Question 3

PDFファイルでこれを一度実行する必要があり、結果は次のようになりました（popplerのpdftohtmlを使用）。

#!/bin/bash

pwddir="`pwd`"
tmpdir="`mktemp -d`"

pdftohtml -enc UTF-8 -noframes -p -nomerge -nodrm -q "$1" "$tmpdir"/index

cd "$tmpdir"

sed -e :a -e '$!N;s/\n/ /;ta' \
    -i index.html 

sed -e 's@&#160;@ @g' \
    -e 's@<hr>@ @g' \
    -e 's@<br/>\s*<br/>@</p><p>@g' \
    -e 's@<br/>@ @g' \
    -i index.html

tidy -utf8 -i -wrap 9999999 -m index.html

sed -e 's@<a name="[^"]*"></a>@@g' \
    -i index.html

rm "$pwddir"/"$1".zip
zip "$pwddir"/"$1".zip *

zipファイルをCalibreにインポートしてEPUBに変換します。すべてのCSSプロパティ（色、フォントなど）をフィルタリングします。

すべてのPDFファイルは異なります。明確な解決策はありません。上記のアプローチは特定の状況に適しています。 pdftohtml/pdftotextを弱め、必要に応じて出力を調整する必要があります。

OCRに頼らなければならないのに失敗しましたが、説形文字で幸運でした。しかし、tesseract、ocrad、gocrを試してみることもできます。しかし、これらすべての作業には良い結果を得るために手作業が必要です。

Answer

PDFファイルでこれを一度実行する必要があり、結果は次のようになりました（popplerのpdftohtmlを使用）。

#!/bin/bash

pwddir="`pwd`"
tmpdir="`mktemp -d`"

pdftohtml -enc UTF-8 -noframes -p -nomerge -nodrm -q "$1" "$tmpdir"/index

cd "$tmpdir"

sed -e :a -e '$!N;s/\n/ /;ta' \
    -i index.html 

sed -e 's@&#160;@ @g' \
    -e 's@<hr>@ @g' \
    -e 's@<br/>\s*<br/>@</p><p>@g' \
    -e 's@<br/>@ @g' \
    -i index.html

tidy -utf8 -i -wrap 9999999 -m index.html

sed -e 's@<a name="[^"]*"></a>@@g' \
    -i index.html

rm "$pwddir"/"$1".zip
zip "$pwddir"/"$1".zip *

zipファイルをCalibreにインポートしてEPUBに変換します。すべてのCSSプロパティ（色、フォントなど）をフィルタリングします。

すべてのPDFファイルは異なります。明確な解決策はありません。上記のアプローチは特定の状況に適しています。 pdftohtml/pdftotextを弱め、必要に応じて出力を調整する必要があります。

OCRに頼らなければならないのに失敗しましたが、説形文字で幸運でした。しかし、tesseract、ocrad、gocrを試してみることもできます。しかし、これらすべての作業には良い結果を得るために手作業が必要です。

PDFを電子ブック形式に変換する方法

答え1

スクリーンショット

答え2

答え3

関連情報