Webページの一部ダウンロード [重複]

Question 1

正しい方法で試してください。道表現する：

注文する:

saxon-lint --html --xpath '//title/text()' http://domain.tld/path

確認するサクソンリント(自己プロジェクト)

あなたはテストすることができますxmllinthttps（ただし、ほとんどの場合、HTMLパーサーはSTDERRを非表示にする必要があり、これはサポートされていません。それ以前に作成したコマンドと同じくらい良いです）

xmllint --html --xpath '//title/text()' http://domain.tld/path 2>/dev/null

for page in $(cat source.txt); do
    chosen_command "https://somewebpage/some_sub_page/$page" > "/tmp/$page/index"
done

Answer

正しい方法で試してください。道表現する：

saxon-lint --html --xpath '//title/text()' http://domain.tld/path

確認するサクソンリント(自己プロジェクト)

あなたはテストすることができますxmllinthttps（ただし、ほとんどの場合、HTMLパーサーはSTDERRを非表示にする必要があり、これはサポートされていません。それ以前に作成したコマンドと同じくらい良いです）

xmllint --html --xpath '//title/text()' http://domain.tld/path 2>/dev/null

for page in $(cat source.txt); do
    chosen_command "https://somewebpage/some_sub_page/$page" > "/tmp/$page/index"
done

Question 2

ここに入りたい内容をパイプできます。

wget -4 -qO- {$query} |\
html2text |\
awk '/<title>/,/<\/title>/{print}'

Answer

ここに入りたい内容をパイプできます。

wget -4 -qO- {$query} |\
html2text |\
awk '/<title>/,/<\/title>/{print}'

Question 3

一般に、HTTP パフォーマンスを制限する要因は帯域幅ではなく待ち時間です。したがって、ページの一部のみをロードするとパフォーマンスに大きな影響を与えるとは思いません。ただし、HTTPはこれを行うメカニズム（範囲要求）を提供します。そしてもちろん、cURLのサポート。

しかし、タイトルの厳格な要件HTML コンテンツの先頭、すぐに表示される場所に表示されます。心に。

ページが約400ページ程度になりますが、ページ全体を読み込むのに時間がかかります。

上記のように、ここでは多くの利点が得られないようです（私が間違っている場合は、データグラムモデルではなくストリームベースのプロセッサ実装を検討する必要があります）。より迅速に結果を得るには、ワークロードを分割して複数のハンドラを並列に実行します。

Answer

一般に、HTTP パフォーマンスを制限する要因は帯域幅ではなく待ち時間です。したがって、ページの一部のみをロードするとパフォーマンスに大きな影響を与えるとは思いません。ただし、HTTPはこれを行うメカニズム（範囲要求）を提供します。そしてもちろん、cURLのサポート。

しかし、タイトルの厳格な要件HTML コンテンツの先頭、すぐに表示される場所に表示されます。心に。

ページが約400ページ程度になりますが、ページ全体を読み込むのに時間がかかります。

上記のように、ここでは多くの利点が得られないようです（私が間違っている場合は、データグラムモデルではなくストリームベースのプロセッサ実装を検討する必要があります）。より迅速に結果を得るには、ワークロードを分割して複数のハンドラを並列に実行します。