PDFファイル内の各ページのタイトルとページ番号を抽出できます。

Question

次のスクリプトは、パラメータとして渡されたPDFファイルの各ページの最初の行を印刷し、その後にスペースと行番号を印刷します。次のツールを使用してください。ポプラ（DebianまたはUbuntuのパッケージpoppler-utils）

#!/bin/bash
if="$1"
pages=$(pdfinfo "$if" | sed -nre 's/^Pages: +([0-9]+)$/\1/p')
for ((i=1; i<=$pages; i++)) ;do
    printf "%s %d\n" "$(pdftotext -f $i -l $i -layout "$if" - | head -n 1)" $i
done

Answer 1

次のスクリプトは、パラメータとして渡されたPDFファイルの各ページの最初の行を印刷し、その後にスペースと行番号を印刷します。次のツールを使用してください。ポプラ（DebianまたはUbuntuのパッケージpoppler-utils）

#!/bin/bash
if="$1"
pages=$(pdfinfo "$if" | sed -nre 's/^Pages: +([0-9]+)$/\1/p')
for ((i=1; i<=$pages; i++)) ;do
    printf "%s %d\n" "$(pdftotext -f $i -l $i -layout "$if" - | head -n 1)" $i
done

PDFファイル内の各ページのタイトルとページ番号を抽出できます。

答え1

関連情報