Go 语言 xpath 类库,xpath 选择器 htmlquery 简单用法

在做爬虫时,经常要用到 html 解析器提取数据,Python 里面有神器 lxml,Go 里面可以选择 htmlquery 或者 goquery。其中 htmlquery 使用 xpath 选择器,goquery 使用 css 选择器。就使用体验来说,htmlquery 更方便一些,这儿主要介绍 htmlquery 的一些基本用法。

htmlquery 是用于 HTML 的 XPath 数据提取库,可让通过 XPath 表达式从 HTML 文档中提取数据,使用起来很简单方便。xpath 语法见https://www.w3school.com.cn/xpath/xpath_syntax.asp。

htmlquery安装:
go get github.com/antchfx/htmlquery
经常使用到的函数有:
func Parse(r io.Reader) (*html.Node, error):
返回给定Reader的HTML的解析树。
func Find(top *html.Node, expr string) []*html.Node:
搜索与指定XPath表达式匹配的html.Node。
func FindOne(top *html.Node, expr string) *html.Node:
搜索与指定XPath 表达式匹配的html.Node,并返回匹配的html.Node的第一个元素。可以简单理解为FindOne = Find[0]。
func InnerText(n *html.Node) string:
返回对象的开始和结束标记之间的文本。
func SelectAttr(n *html.Node, name string) (val string):
返回指定名称的属性值。
func OutputHTML(n *html.Node, self bool) string:
返回包含标签名称的文本。

最后以爬取https://www.kuaidaili.com/free/网站代理为例,演示htmlquery的用法:
package main

import (
    "fmt"
    htmlquery "github.com/antchfx/xquery/html"
    "io/ioutil"
    "log"
    "net/http"
    "strings"
    "time"
)

func main() {
    urlTemplate := "https://www.kuaidaili.com/free/inha/%d/"
    var proxies []string
    for i := 1; i < 4; i++ {
        html := getHtml(fmt.Sprintf(urlTemplate, i))
        root, _ := htmlquery.Parse(strings.NewReader(html))
        tr := htmlquery.Find(root, "//*[@id='list']/table/tbody/tr")
        for _, row := range tr {
            item := htmlquery.Find(row, "./td")
            ip := htmlquery.InnerText(item[0])
            port := htmlquery.InnerText(item[1])
            //type_ := htmlquery.InnerText(item[3])
            p := ip + ":" + port
            proxies = append(proxies, p)
        }
        time.Sleep(3 * time.Second)
    }
    fmt.Println(len(proxies), proxies[0:5])
}

func getHtml(url_ string) string {
    req, _ := http.NewRequest("GET", url_, nil)
    req.Header.Add("User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3776.0 Safari/537.36")
    client := &http.Client{Timeout: time.Second * 5}
    resp, err := client.Do(req)
    if err != nil {
        log.Fatalln(err)
    }
    defer resp.Body.Close()
    data, err := ioutil.ReadAll(resp.Body)
    if err != nil && data == nil {
        log.Fatalln(err)
    }
    return fmt.Sprintf("%s", data)
}

>go run demo.go
45 [182.34.36.64:9999 113.124.93.135:9999 117.90.252.100:9000 171.15.51.71:9999 1.198.110.34:9999]

来源:txfly
郑重声明:本站内容如果来自互联网及其他传播媒体,其版权均属原媒体及文章作者所有。转载目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。