テキストなしでPDFを探す

テキストなしでPDFを探す

PDFが多く含まれるフォルダが多いのですが、テキストレイヤーのないフォルダを光学的に文字認識したいと思います。だから最初にそれらを探したいと思います。おそらくチューブがpdfgrepその役割を果たすと思いましたが、迷子になりました。

テキストなしでPDFを見つける方法は?

答え1

はい、pdfgrep試してみるのが良いようです。それは次のとおりです。

find . -name '*.[Pp][Dd][Ff]' -type f \
  ! -exec pdfgrep -q '\w' {} ';' -print

pdfgrep単語文字(数字または下線)のないPDFファイルのリストが報告されます。

(一部の実装では、上記の代わりにfind使用できます。ファイル名が現在のロケールで有効なテキストであると仮定します。)-iname '*.pdf'-name '*.[Pp][Dd][Ff]'

1000語未満の文字を含むファイルを見つけるには、次の手順を実行します。

find . -name '*.[Pp][Dd][Ff]' -type f -exec sh -c '
  for file do
    [ "$(pdfgrep -c "\w" "$file")" -lt 1000 ] &&
      printf "%s\n" "$file"
  done' sh {} +

関連情報