
私はOCRソフトウェアを使用していますが、特にtesseractを使用するのに時間を費やしました。 Linux端末に画像をロードし、tesseractが画像からテキストを抽出できるようになりました。今、引き裂かれたテキストを端末でpdf、odf、txt、およびword形式で自動的に保存する方法を理解しようとしています。
答え1
見てみるとman 1 tesseract
、次の形式のコマンドを使用して出力を1つ以上の特定の形式で保存できるようです。
tesseract image_file output_file pdf txt
パラメータの4つは、一般的なコマンドの要約でそれぞれ、およびFILE
(OUTPUTBASE
2回繰り返される)役割を果たします。CONFIGFILE
このコマンドは2つのファイルoutput_file.pdf
とoutput_file.txt
。