不完全なリンク配列の修正

Question 1

これを達成するために使用できるサンプルスクリプトは次のとおりです。

#!/bin/bash

shopt -s extglob
readonly URL="https://google.com"
links=($(grep -o -P '(?<=href=").*(?=")' source.html)) # read into array

for ((i=0; i<${#links[@]}; i++))
do
  case ${links[$i]} in
    http*)
      : # do nothing
      ;;
    /*)  
      links[$i]="$URL"${links[$i]}; # update array
      ;; 
    *)
      links[$i]="$URL/"${links[$i]}; # update array
      ;;
  esac
done

source.html現在ディレクトリにあるWebページのダウンロードソースと見なされます。

Answer

これを達成するために使用できるサンプルスクリプトは次のとおりです。

#!/bin/bash

shopt -s extglob
readonly URL="https://google.com"
links=($(grep -o -P '(?<=href=").*(?=")' source.html)) # read into array

for ((i=0; i<${#links[@]}; i++))
do
  case ${links[$i]} in
    http*)
      : # do nothing
      ;;
    /*)  
      links[$i]="$URL"${links[$i]}; # update array
      ;; 
    *)
      links[$i]="$URL/"${links[$i]}; # update array
      ;;
  esac
done

source.html現在ディレクトリにあるWebページのダウンロードソースと見なされます。

Question 2

正規表現を使用してHTMLを解析する方法は数多くあります。エラー。これは、HTMLファイルからURLを抽出するのと同じように、一見単純なものにも当てはまります。

したがって、正規表現を使用しないでください。次のように使用してください。

#! /bin/bash

htmlfile='./file.html'
URL='https://google.com'

links=($(lynx -dump -listonly -nonumbers -force_html "$htmlfile" | 
         sed -e "s=^file://=$URL="))

printf "%s\n" "${links[@]}"

これが必要ですサルクインストールされています。 lynxncursesに基づくテキストモードのWebブラウザです。ここで使用されているのは、lynxすでに解決されているHTMLファイルのリンクリストを生成することです。思ったよりずっと難しいHTMLコンテンツ（ブラウザの操作の重要な部分）でURLを確実に見つける方法に関する問題です。 URLを抽出するためにHTMLを解析するのに良いライブラリモジュールがあるか、perl他の言語があります。pythonシェルスクリプトの場合lynx。

man lynx詳細より。

lynxLinuxディストリビューションや他のUNIXのようなオペレーティングシステム用に事前にパッケージ化されて提供されることはほぼ確実です。そうでない場合は、上記のリンクからソースコードを取得できます。

Answer