.txtファイルを使用してPDFファイルをtxtファイルに変換しますpdftotext
。たとえば、「これは...の機能的相関に関する最初の研究です」という文があり、GATEを介してこの文を処理するときに、「first」のfを参照して「first」を「ï rst”に変換します。 ”エピソームでトランスフェクトされたHEK293EBNA細胞からタンパク質を単離し、a”から親和性クロマトグラフィーで精製しました。 「によってエピソームでトランスフェクトされたHEK293EBNA細胞からタンパク質を単離および精製した。」aに対する親和性クロマトグラフィー。
pdftotext
読みやすいエンコーディングでテキストを出力するには?
答え1
貼り付けたテキストでは、「first」の「fi」と「affinity」の「ffi」は合字です(複数の文字が1つの文字の形にまとめられています)。おそらく、pdftotext
各合字を単一の文字で印刷することは、テキストを読み取るために使用するツールではサポートされていません。
としてスーパーユーザーの問題提案は次のとおりです。
pdftotext -enc ASCII7 input.pdf output.txt
これにより、pdftotext
合字をそのまま印刷してASCII文字に拡張することを防ぐことができます。
答え2
私はすでにPythonでPDFをテキストに変換しているので、単純なPythonコマンドを使用してPDFテキストを後処理しました。
# efficient ->
# efficient
import unicodedata
pdf_text = unicodedata.normalize("NFKC", pdf_text)