私は時々フィンランド語で書かれたPDFファイルを読みます。 XpdfとOkularでは、äとöの文字を含むテキストを検索できません。この文字を正確に見つけるためのPDFリーダーはありますか? eliisanet.fi/matti.t.lehtinen/Geom2011.pdfファイルに問題があります。
答え1
私はEvinceを使用しており、時々ドイツ語を読む必要があります。 Evinceはöとä(ßなどの他のドイツ語の特殊文字も含む)を正しく見つけます。
これらの文字に特別なキーボードショートカット(正しいメタキーを含む)を提供しますが、キーボードでその文字が生成されない場合は、検索フィールドにコピーして貼り付けることもできます。
注意すべき1つのことは、出力がäのように見えますが、グラフィックは別々の「ä」と「¡」(別々の分音符/ウムラウト)で構成されるPDFを生成できることです。この場合、アクセント記号付きの文字を検索して見つけることができません。したがって、ビューアを切り替える前に、実際のPDFで「a」と「o」のみを探してください。
ファイルの強調表示された部分を見るためにthenを使用している場合pdfedit
(申し訳ありませんが、ドキュメントの2ページにあるので少し小さいです):
エンコーディングは次のような配列になっています。
ご覧のように、分音記号と「o」(最初のフィールドの)の間にはほとんど接続がなく、オフセットを使用すると自動化できる「シンプル」UTF16からUTF-8への変換やその他の文字エンコード変換ではありません。
テキストに数学的な内容が多くない場合は、イメージとしてレンダリングしてからOCRを試すことができますが、その場合は、作成者に連絡してソース(おそらくLaTeX)ソースを取得する方が良いと思います。検索が必要です)テキストで。