適切な時間内に特定のURLからすべてのリンクを抽出する方法

2024-5-23 • tag-icon

指定されたURLからリンクを抽出してファイルにリダイレクトしようとしています。

最初は私を使ってみましたが、--spiderこれは私のコードです。

wget --spider --force-html -m http://file/path 2>&1 | grep '^--' | awk '{ print $3 }'| grep -v '\.\(css\|js\|png\|gif\|jpg\|ico\|txt\)$'| sort | uniq > links.txt

ページが多すぎないURLを渡すとうまくいきますが、URLがより複雑な場合は本当に良い時間がかかります。

私はいくつかの調査を行い、プロセス自体を終了する前に処理された出力を印刷する方法を見つけようとしましたが、timeout -s KILL 30どの方法も見つかりませんでした。

それでは、適切な時間内にリンクを取得する方法はありますか？それとも、少なくともプロセスを中断する前に得られた出力を印刷しますか？

ありがとうございます。

答え1

tee2番目の質問に対するコマンドを見てください。

https://en.m.wikipedia.org/wiki/Tee_(Unix)

コマンド出力をファイルとコンソールに同時に「分割」できます。

答え1

関連情報