.pdfを使用してPDFファイルをテキストファイルに変換しようとしていますtextutil
。変換可能または変換できない特別な種類のPDFがあるかどうかわかりません。変換したいファイルは検索可能な形式ですが、これが最小要件であると思います。ファイルを変換すると、テキストファイルの出力が出力された後に歪みます。これは私のコードです。
textutil -convert txt example.pdf
私が間違っている部分を判断するのに役立つ場合に備えて、最初の行の内容は次のとおりです。
%PDF-1.3
%ƒÂÚÂÎßÛ†–ƒ∆
4 0 obj
<< /Length 5 0 R /Filter /FlateDecode >>
stream
xÌõYè‹∏«flı)8>2”„å,R%Ÿªõ¯fixs9ôM‚<YÅ`„Ô‰W,J¢‘íF3”@^2Z›<ädˇ:(ˇl>òüçuπ´Í¶ñ¶nõº.⁄⁄
4>~˘œ?Ã_ÕøÕ”W_≠˘Ù’·fl◊OL.ò´øÂKI5ÖÀª∫*≥O_ÃÀk”‘aH|\1OØØù
±Ê˙'sqv0◊ˇ2oÆ√Vñ©˘÷Êmy2jæ»;P+Ú¢(*s˝ikó3>z¸ãõæ8;èè˙΄·ê—z~=|
¯D˝rËî)WÈå<˝¡ÒˇnÆfl/3¿’UnõÆ4~∫Á;Ú”µ≠J˙4‰JWùîgz8€]êªA@g¸≠kRŸ¯‹÷ùàëeÁÔπUŸÓ÷Ü´≤Œ
私はこれが私の専門分野ではないいくつかのコーディング機能に関連していると思うので、助けてくれてありがとう。
答え1
引用するTEXTUTIL(1) マニュアルページ そうだPDFこのユーティリティで管理されていない形式間:
fmt is one of: txt, html, rtf, rtfd, doc, docx, wordml, odt, or webarchive
Linux/Unix にスクリプト可能な製品をインストールします。XPPDF/pdftotext いくつかのコメントで提案したように、有効な解決策かもしれません。
OS Xユーザーの場合、基本OS Xオートメーションを使用してPDFからテキストを抽出できます。(..バラよりこの回答またはこのチュートリアルの最後の4 ')次のことで、自動化されたワークフローを「スクリプト」できると思います。CLI自動コマンド