2014年6月20日 星期五

Go HTML Parser

用Go寫爬蟲目前有兩個third party library還滿好用的。

  1. gokogiri: https://github.com/moovweb/gokogiri
  2. goquery: https://github.com/PuerkitoBio/goquery

gokogiri使用cgo封裝了libxml2,所以需要先安裝libxml2,環境架設比較麻煩,弄好之後可以用XPath的方式取element。而goquery基於Go的net/html以及cascadia,讓我們可以使用類似Jquery Selector的方式選取element。

Selector使用方式可以參考http://api.jquery.com/category/selectors/

搭配goquery的Readme變換一下selector應該就可以寫出一些基本的爬蟲了。

沒有留言:

張貼留言