ASCII以外のコンテンツを含むPDFを検出するためのシェルスクリプト

ASCII以外のコンテンツを含むPDFを検出するためのシェルスクリプト

有効なPDFを検出するにはシェルスクリプトが必要です。つまり、純粋なASCII PDFを維持するだけです。 ASCII以外のコンテンツや悪意のあるスクリプトを含む他のPDFを削除する必要があります。どうすればいいですか?これを行うために使用できるスクリプトはありますか?

答え1

あなたが望むのはウイルススキャナであるということです。例えば。貝殻ウイルス

答え2

以下はいくつかのPythonスクリプトです。 「Malware Archives:PDFファイル」Bruce Schneierは彼のウェブサイトでもこれについて言及しました。

pdf2psは簡単ですが、わかりません。興味深いPDF/Aです。http://en.wikipedia.org/wiki/PDF/Aマルチメディア要素は許可されません。

関連情報