初學(xué)網(wǎng)絡(luò)爬蟲,請(qǐng)多多指教
以下是我覺(jué)得有用的資源總結(jié),資源均來(lái)自網(wǎng)上
編程語(yǔ)言:java
使用網(wǎng)絡(luò)爬蟲:spiderman
Spiderman 是一個(gè)Java開源Web數(shù)據(jù)抽取工具。它能夠收集指定的Web頁(yè)面并從這些頁(yè)面中提取有用的數(shù)據(jù)。
Spiderman主要是運(yùn)用了像XPath,正則表達(dá)式等這些技術(shù)來(lái)實(shí)數(shù)據(jù)抽取。
Spiderman開源中國(guó)鏈接(含文檔及下載): http://www.oschina.net/p/spiderman
Spiderman Java 爬蟲示例: http://my.oschina.net/laiweiwei/blog/99937
【最新更新支持頻道分頁(yè)、文章分頁(yè)】【拋磚引玉】抓取OSC的問(wèn)答數(shù)據(jù)展現(xiàn)垂直爬蟲的能力 :http://my.oschina.net/laiweiwei/blog/100866
XPath JAVA用法總結(jié)及代碼樣例 :http://www.open-open.com/lib/view/open1397717612656.html
vevb XPath教程 : http://m.survivalescaperooms.com.cn/xpath/index.asp
新聞熱點(diǎn)
疑難解答
圖片精選
網(wǎng)友關(guān)注