AWKを使用してURLからファイル名を選択するには?

AWKを使用してURLからファイル名を選択するには?

このように実行されるawkスクリプトがあります。

生データテキスト:

date:
  1.0.1: http://example.com/1.0.1.tgz
  1.0.2: http://example.com/1.0.2.tgz
  1.0.3: http://example.com/1.0.3.tgz
  1.0.4: http://example.com/1.0.4.tgz
  1.0.5: http://example.com/1.0.5.tgz
  1.0.6: http://example.com/1.0.6.tgz
  1.0.7: http://example.com/1.0.7.tgz
  1.0.8: http://example.com/1.0.8.tgz
  1.0.9: http://example.com/1.0.9.tgz
  1.0.10: http://example.com/1.0.10.tgz

awk経由でHTML形式に変換:

<table>
    <thead>
        <tr>
            <th>ver</th>
            <th>link</th>
        </tr>
    </thead>
    <tbody>
        <tr>
            <td>1.0.1</td>
            <td><a href="http://example.com/1.0.1.tgz">download</a></td>
        </tr>
        <tr>
            <td>1.0.2</td>
            <td><a href="http://example.com/1.0.2.tgz">download</a></td>
        </tr>
        <tr>
            <td>1.0.3</td>
            <td><a href="http://example.com/1.0.3.tgz">download</a></td>
        </tr>
        <tr>
            <td>1.0.4</td>
            <td><a href="http://example.com/1.0.4.tgz">download</a></td>
        </tr>
        <tr>
            <td>1.0.5</td>
            <td><a href="http://example.com/1.0.5.tgz">download</a></td>
        </tr>
        <tr>
            <td>1.0.6</td>
            <td><a href="http://example.com/1.0.6.tgz">download</a></td>
        </tr>
        <tr>
            <td>1.0.7</td>
            <td><a href="http://example.com/1.0.7.tgz">download</a></td>
        </tr>
        <tr>
            <td>1.0.8</td>
            <td><a href="http://example.com/1.0.8.tgz">download</a></td>
        </tr>
        <tr>
            <td>1.0.9</td>
            <td><a href="http://example.com/1.0.9.tgz">download</a></td>
        </tr>
        <tr>
            <td>1.0.10</td>
            <td><a href="http://example.com/1.0.10.tgz">download</a></td>
        </tr>
    </tbody>
</table>

フォームの「ダウンロード」テキストをリンクされたファイル名に変更したいと思います。どうすれば修正すればい​​いですか?以下は既存のawkスクリプトコードです。

#!/usr/bin/env awk

BEGIN {
    print "<table>"
    print "\t<thead>"
    print "\t\t<tr>"
    print "\t\t\t<th>ver</th>"
    print "\t\t\t<th>link</th>"
    print "\t\t</tr>"
    print "\t</thead>"
    print "\t<tbody>"
}

match($0, /^ +(.*): (.*)$/, r) {
    print "\t\t<tr>"
    printf "\t\t\t<td>%s</td>\n", r[1]
    printf "\t\t\t<td><a href=\"%s\">download</a></td>\n", r[2]
    print "\t\t</tr>"
}

END {
    print "\t</tbody>"
    print "</table>"
}

私は初心者であり、あなたが私を助けることができることを願っています。役立つ提案があれば、よろしくお願いします!

答え1

18行目でこれを試してください。

printf "\t\t\t<td><a href=\"%s\">%s.tgz</a></td>\n", r[2], r[1]

答え2

match()正規表現で3番目のキャプチャグループを作成し、ファイル名を保持して適切な行に印刷します。

$ cat tst.awk
BEGIN {
    print "<table>"
    print "\t<thead>"
    print "\t\t<tr>"
    print "\t\t\t<th>ver</th>"
    print "\t\t\t<th>link</th>"
    print "\t\t</tr>"
    print "\t</thead>"
    print "\t<tbody>"
}

match($0, /^ +(.*): (.*\/([^/]+))$/, r) {
    print "\t\t<tr>"
    printf "\t\t\t<td>%s</td>\n", r[1]
    printf "\t\t\t<td><a href=\"%s\">%s</a></td>\n", r[2], r[3]
    print "\t\t</tr>"
}

END {
    print "\t</tbody>"
    print "</table>"
}

$ awk -f tst.awk data.text
<table>
        <thead>
                <tr>
                        <th>ver</th>
                        <th>link</th>
                </tr>
        </thead>
        <tbody>
                <tr>
                        <td>1.0.1</td>
                        <td><a href="http://example.com/1.0.1.tgz">1.0.1.tgz</a></td>
                </tr>
                <tr>
                        <td>1.0.2</td>
                        <td><a href="http://example.com/1.0.2.tgz">1.0.2.tgz</a></td>
                </tr>
                <tr>
                        <td>1.0.3</td>
                        <td><a href="http://example.com/1.0.3.tgz">1.0.3.tgz</a></td>
                </tr>
                <tr>
                        <td>1.0.4</td>
                        <td><a href="http://example.com/1.0.4.tgz">1.0.4.tgz</a></td>
                </tr>
                <tr>
                        <td>1.0.5</td>
                        <td><a href="http://example.com/1.0.5.tgz">1.0.5.tgz</a></td>
                </tr>
                <tr>
                        <td>1.0.6</td>
                        <td><a href="http://example.com/1.0.6.tgz">1.0.6.tgz</a></td>
                </tr>
                <tr>
                        <td>1.0.7</td>
                        <td><a href="http://example.com/1.0.7.tgz">1.0.7.tgz</a></td>
                </tr>
                <tr>
                        <td>1.0.8</td>
                        <td><a href="http://example.com/1.0.8.tgz">1.0.8.tgz</a></td>
                </tr>
                <tr>
                        <td>1.0.9</td>
                        <td><a href="http://example.com/1.0.9.tgz">1.0.9.tgz</a></td>
                </tr>
                <tr>
                        <td>1.0.10</td>
                        <td><a href="http://example.com/1.0.10.tgz">1.0.10.tgz</a></td>
                </tr>
        </tbody>
</table>

関連情報