FCCのECFS(Electronic Comment Filing System)を使用して個々の訴訟ファイルを一括ダウンロードしようとしています。訴訟のすべての申請書を返すAPIがあります。単一文書の URL を次の形式で返します。
https://www.fcc.gov/ecfs/document/10809709027819/1
ただし、これがブラウザで動作している間にwgetまたはカールを使用するときにJavaScriptが必要であることを示すプレースホルダHTMLファイルのみをダウンロードします。ブラウザでページを調べてみましたが、実際のPDFのソースURLに似たものが見つかりませんでした。
wgetやカールを使って実際のPDFを取得する方法はありますか?
答え1
私はFirefoxのブラウザツールを使用してPDFを返すリクエストを見て、リクエストヘッダをカットしてPDFを返す最小のリクエストを得ました。これは私にとって効果的です。
% curl 'https://www.fcc.gov/ecfs/documents/10809709027819/1' -H 'Referer: https://www.fcc.gov/ecfs/document/10809709027819/1' | file -
% Total % Received % Xferd Average Speed Time Time Time Current
Dload Upload Total Spent Left Speed
100 146k 0 146k 0 0 516k 0 --:--:-- --:--:-- --:--:-- 518k
/dev/stdin: PDF document, version 1.7, 9 page(s)
したがって、少なくともこのPDFの場合、必要なのはReferer
ヘッダーを同じURLに設定するだけです。