PDFを電子ブック形式に変換する方法

PDFを電子ブック形式に変換する方法

PDF文書をepub、azw、mobiなどの電子書籍形式に変換する方法はありますか?変換速度が速いアプリを探しています。ちょうど口径を試してみました。 10分経ってもコンバージョン率は2%にも達しませんでした。だから見ないでください。 CLIが好ましい。

答え1

普通に使う口径、さまざまな形式(epub、mobi、pdf)から変換します。変換するのはとても簡単です。ここにスクリーンショットがあります。他の人そしてビデオチュートリアルしかも。

スクリーンショット

   SS口径

答え2

試してみてくださいpdftotext(パッケージのUbuntuの下poppler-utils)。コマンドラインコンバータです。 PDFには画像だけでなくテキストも含まれているとします。

PDFファイルに画像(OCR情報なし)が含まれている場合は、はるかに遅いOCRソリューションを使用する必要があります。

私はまた、スクランブルされたPDFテキストにOCRメソッドを正常に使用しました(非線形方法でページに個々の文字を配置することによって)。たとえば、pdftoppmページの個々の画像を取得し、その画像をOCRするために使用できます。

答え3

PDFファイルでこれを一度実行する必要があり、結果は次のようになりました(popplerのpdftohtmlを使用)。

#!/bin/bash

pwddir="`pwd`"
tmpdir="`mktemp -d`"

pdftohtml -enc UTF-8 -noframes -p -nomerge -nodrm -q "$1" "$tmpdir"/index

cd "$tmpdir"

sed -e :a -e '$!N;s/\n/ /;ta' \
    -i index.html 

sed -e 's@ @ @g' \
    -e 's@<hr>@ @g' \
    -e 's@<br/>\s*<br/>@</p><p>@g' \
    -e 's@<br/>@ @g' \
    -i index.html

tidy -utf8 -i -wrap 9999999 -m index.html

sed -e 's@<a name="[^"]*"></a>@@g' \
    -i index.html

rm "$pwddir"/"$1".zip
zip "$pwddir"/"$1".zip *

zipファイルをCalibreにインポートしてEPUBに変換します。すべてのCSSプロパティ(色、フォントなど)をフィルタリングします。

すべてのPDFファイルは異なります。明確な解決策はありません。上記のアプローチは特定の状況に適しています。 pdftohtml/pdftotextを弱め、必要に応じて出力を調整する必要があります。

OCRに頼らなければならないのに失敗しましたが、説形文字で幸運でした。しかし、tesseract、ocrad、gocrを試してみることもできます。しかし、これらすべての作業には良い結果を得るために手作業が必要です。

関連情報