
私のPDFファイルに破損したOCRが含まれています。多くの記号と頭字語を含む手書きのページの束で、自動生成されたOCRを含むこのファイルを取得しました。より軽いファイルを取得し、不要なOCRを削除するためにテキストレイヤーを削除するにはどうすればよいですか?
答え1
@dirktが提供したコマンドは私には機能しませんでした。実際、ファイルサイズを560Mbから300Mbに縮小しましたが、diffpdfをチェックしていないので、ファイル間で何が変わったのかわかりません。
私に効果があったのはApache PDFボックスPdfbox開発者は例からテキストやその他のコンテンツを削除するための素晴らしい小さなプログラムを提供していますが、私はJavaエクスペリエンス(またはbash以外のもの)がないのでopenjdk-11-jdk -Headlessとlibpdfboxをインストールしました。 -Java。
スピード:
- pdfbox2.jar、fontbox2.jar、commons-logging.jar(pdfbox2の一部のクラスに必要)をフォルダにコピーします。
jar xf pdfbox2.jar
.- インストールされているバージョンと同じPdfboxソースをインポートします。
- RemoveAllText.javaをこのフォルダにコピーします
org/apache/pdfbox/examples/util
。 - RemoveAllText.javaをコンパイルします
javac org/apache/pdfbox/examples/util/RemoveAllText.java
。 - これで実行すると使用法が表示されます
java org.apache.pdfbox.examples.util.RemoveAllText
。
誰もがこの答えを見つけて、より良い方法を知っている場合はコメントを残してください。