画像が多く、その中に英語のテキストを含む画像を見つける必要があります(削除するには)。自動でできますか?
答え1
私も同じ問題が発生しました。解決策を共有します。
find . -type f \( -name "*.jpg" -or -name "*.png" \) -exec sh -c 'for x; do printf "%s :" "$x"; tesseract $x temp; if (grep -f blacklist temp.txt) then rm $x; rm temp.txt; fi; done' _ {} +
すべてのサブディレクトリを調べ、「blacklist」というファイルに基づいて一致するOCRパターンを削除します。唯一の問題は、ファイルにスペースが含まれている場合は正しく解析せずに、代わりにファイルの最初の単語を操作しようとすることです。
編集:ブラックリストファイルに空白行を置かないように注意してください。
答え2
たとえば、オープンソースOCRエンジンを使用できます。宇宙キューブ英語のテキストがあることを確認してください。