
スキャンしたPDFファイルがあります。
一部のページは正しく整列されておらず、明らかに90度未満のわずかな回転が必要です。ページのテキストに明確に定義された制限はありませんが、マーカーとして機能する垂直または水平装飾線があります。
ページを1つずつ固定したり、線を描いたり、光学方向を定義したりするなどの解決策はありますか?
答え1
一部のPDF処理プログラムには、ファイルを処理するときにファイルの傾きを自動的に調整するオプションがあります。
通常、プロセスは、PDFをページごとに1つの画像ファイルに分割し、各画像の傾きを調整してから、すべてのページを再び新しいPDFファイルにマージすることです。
この分割/オフセット修正/マージプロセスを自動化できるプログラムがあります。Ocrmypdf、まだテキストレイヤーを持たないPDFにテキストレイヤーを追加できます(または既存のテキストレイヤーを新しいレイヤーに置き換えます)。--deskew
使用する前に各ページに対してこれを行うオプションがあります。tesseract-ocrテキストを生成します。