PDFが多く含まれるフォルダが多いのですが、テキストレイヤーのないフォルダを光学的に文字認識したいと思います。だから最初にそれらを探したいと思います。おそらくチューブがpdfgrep
その役割を果たすと思いましたが、迷子になりました。
テキストなしでPDFを見つける方法は?
答え1
はい、pdfgrep
試してみるのが良いようです。それは次のとおりです。
find . -name '*.[Pp][Dd][Ff]' -type f \
! -exec pdfgrep -q '\w' {} ';' -print
pdfgrep
単語文字(数字または下線)のないPDFファイルのリストが報告されます。
(一部の実装では、上記の代わりにfind
使用できます。ファイル名が現在のロケールで有効なテキストであると仮定します。)-iname '*.pdf'
-name '*.[Pp][Dd][Ff]'
1000語未満の文字を含むファイルを見つけるには、次の手順を実行します。
find . -name '*.[Pp][Dd][Ff]' -type f -exec sh -c '
for file do
[ "$(pdfgrep -c "\w" "$file")" -lt 1000 ] &&
printf "%s\n" "$file"
done' sh {} +