PDFファイル内の各ページのタイトルとページ番号を抽出できます。

PDFファイル内の各ページのタイトルとページ番号を抽出できます。

PDFファイルの各ページのタイトルとページ番号を抽出する方法があるかどうかを知りたいです。いくつかのアプリケーションを介して、またはいくつかのプログラミング言語といくつかのPDFライブラリを介したプログラミングを介して?

各ページのタイトルは、スライドショー/プレゼンテーションファイルなど、ページの最初の行になければなりません。

出力は次の形式のテキストファイルでなければなりません。

title_of_first_page pagenum_of_first_page
title_of_second_page pagenum_of_second_page
...

答え1

次のスクリプトは、パラメータとして渡されたPDFファイルの各ページの最初の行を印刷し、その後にスペースと行番号を印刷します。次のツールを使用してください。ポプラ(DebianまたはUbuntuのパッケージpoppler-utils

#!/bin/bash
if="$1"
pages=$(pdfinfo "$if" | sed -nre 's/^Pages: +([0-9]+)$/\1/p')
for ((i=1; i<=$pages; i++)) ;do
    printf "%s %d\n" "$(pdftotext -f $i -l $i -layout "$if" - | head -n 1)" $i
done

関連情報