PDF文書をepub、azw、mobiなどの電子書籍形式に変換する方法はありますか?変換速度が速いアプリを探しています。ちょうど口径を試してみました。 10分経ってもコンバージョン率は2%にも達しませんでした。だから見ないでください。 CLIが好ましい。
答え1
普通に使う口径、さまざまな形式(epub、mobi、pdf)から変換します。変換するのはとても簡単です。ここにスクリーンショットがあります。他の人そしてビデオチュートリアルしかも。
スクリーンショット
答え2
試してみてくださいpdftotext
(パッケージのUbuntuの下poppler-utils
)。コマンドラインコンバータです。 PDFには画像だけでなくテキストも含まれているとします。
PDFファイルに画像(OCR情報なし)が含まれている場合は、はるかに遅いOCRソリューションを使用する必要があります。
私はまた、スクランブルされたPDFテキストにOCRメソッドを正常に使用しました(非線形方法でページに個々の文字を配置することによって)。たとえば、pdftoppm
ページの個々の画像を取得し、その画像をOCRするために使用できます。
答え3
PDFファイルでこれを一度実行する必要があり、結果は次のようになりました(popplerのpdftohtmlを使用)。
#!/bin/bash
pwddir="`pwd`"
tmpdir="`mktemp -d`"
pdftohtml -enc UTF-8 -noframes -p -nomerge -nodrm -q "$1" "$tmpdir"/index
cd "$tmpdir"
sed -e :a -e '$!N;s/\n/ /;ta' \
-i index.html
sed -e 's@ @ @g' \
-e 's@<hr>@ @g' \
-e 's@<br/>\s*<br/>@</p><p>@g' \
-e 's@<br/>@ @g' \
-i index.html
tidy -utf8 -i -wrap 9999999 -m index.html
sed -e 's@<a name="[^"]*"></a>@@g' \
-i index.html
rm "$pwddir"/"$1".zip
zip "$pwddir"/"$1".zip *
zipファイルをCalibreにインポートしてEPUBに変換します。すべてのCSSプロパティ(色、フォントなど)をフィルタリングします。
すべてのPDFファイルは異なります。明確な解決策はありません。上記のアプローチは特定の状況に適しています。 pdftohtml/pdftotextを弱め、必要に応じて出力を調整する必要があります。
OCRに頼らなければならないのに失敗しましたが、説形文字で幸運でした。しかし、tesseract、ocrad、gocrを試してみることもできます。しかし、これらすべての作業には良い結果を得るために手作業が必要です。