PDFでリンクとその場所を見つける

PDFでリンクとその場所を見つける

PDFファイルのすべてのリンクとそのリンクを含むページとX / Yの場所を見つける必要があります。これを行うために使用できるツールまたはツールの組み合わせはありますか?

答え1

特定のテキストやリンク内の座標を知らせるツールについて聞いたことはありません。PDF文書。この作業を確実に行う方法は想像することさえ難しい。ツールは、文書内のすべてのテキストの幾何学的構造を計算する必要があります(標準のpopplerPDFレンダリングライブラリへの変更が必要な場合があります)、そうでない場合は実行に基づいている必要があります。 pdf Viewer X 自動化ツールのいくつかは推定を実行します。

多くの労力をかけずにgrepを実行することで、暗号化されていない圧縮されていないPDFファイルからリンクを見つけることができます。以下は、grep利用可能な検索のいくつかの例です。

grep -ao "http://[[:print:]]*" TheFile.pdf

grep -ao "http://[[:alnum:]./]*" TheFile.pdf

grep -ao "http://[^ ']*" TheFile.pdf

grep -ao "URI(http://.*[^\])" TheFile.pdf

最後のリンクは、ファイルを読み取るときに見つけることができるリンクに最も近いものです。ただし、ドキュメントから実際に必要なリンクを抽出するには、これらの正規表現の一部を処理する必要があります。

文書が圧縮または暗号化されている場合は、まず文書からプレーンテキストバージョンを抽出する必要があります。pdftkこれを行うには、または同様のツールを使用してください。

関連情報