PDFからOCRを削除

Question

@dirktが提供したコマンドは私には機能しませんでした。実際、ファイルサイズを560Mbから300Mbに縮小しましたが、diffpdfをチェックしていないので、ファイル間で何が変わったのかわかりません。

私に効果があったのはApache PDFボックスPdfbox開発者は例からテキストやその他のコンテンツを削除するための素晴らしい小さなプログラムを提供していますが、私はJavaエクスペリエンス（またはbash以外のもの）がないのでopenjdk-11-jdk -Headlessとlibpdfboxをインストールしました。 -Java。

スピード：

pdfbox2.jar、fontbox2.jar、commons-logging.jar（pdfbox2の一部のクラスに必要）をフォルダにコピーします。
jar xf pdfbox2.jar.
インストールされているバージョンと同じPdfboxソースをインポートします。
RemoveAllText.javaをこのフォルダにコピーしますorg/apache/pdfbox/examples/util。
RemoveAllText.javaをコンパイルしますjavac org/apache/pdfbox/examples/util/RemoveAllText.java。
これで実行すると使用法が表示されますjava org.apache.pdfbox.examples.util.RemoveAllText。

誰もがこの答えを見つけて、より良い方法を知っている場合はコメントを残してください。

Answer 1

@dirktが提供したコマンドは私には機能しませんでした。実際、ファイルサイズを560Mbから300Mbに縮小しましたが、diffpdfをチェックしていないので、ファイル間で何が変わったのかわかりません。

私に効果があったのはApache PDFボックスPdfbox開発者は例からテキストやその他のコンテンツを削除するための素晴らしい小さなプログラムを提供していますが、私はJavaエクスペリエンス（またはbash以外のもの）がないのでopenjdk-11-jdk -Headlessとlibpdfboxをインストールしました。 -Java。

スピード：

pdfbox2.jar、fontbox2.jar、commons-logging.jar（pdfbox2の一部のクラスに必要）をフォルダにコピーします。
jar xf pdfbox2.jar.
インストールされているバージョンと同じPdfboxソースをインポートします。
RemoveAllText.javaをこのフォルダにコピーしますorg/apache/pdfbox/examples/util。
RemoveAllText.javaをコンパイルしますjavac org/apache/pdfbox/examples/util/RemoveAllText.java。
これで実行すると使用法が表示されますjava org.apache.pdfbox.examples.util.RemoveAllText。

誰もがこの答えを見つけて、より良い方法を知っている場合はコメントを残してください。

PDFからOCRを削除

答え1

関連情報