有効なPDFを検出するにはシェルスクリプトが必要です。つまり、純粋なASCII PDFを維持するだけです。 ASCII以外のコンテンツや悪意のあるスクリプトを含む他のPDFを削除する必要があります。どうすればいいですか?これを行うために使用できるスクリプトはありますか?
答え1
あなたが望むのはウイルススキャナであるということです。例えば。貝殻ウイルス
答え2
以下はいくつかのPythonスクリプトです。 「Malware Archives:PDFファイル」Bruce Schneierは彼のウェブサイトでもこれについて言及しました。
pdf2psは簡単ですが、わかりません。興味深いPDF/Aです。http://en.wikipedia.org/wiki/PDF/Aマルチメディア要素は許可されません。