国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > JavaScript > 正文

使用phantomjs進行網頁抓取的實現代碼

2019-11-20 14:04:52
字體:
來源:轉載
供稿:網友

phantomjs因為是無頭瀏覽器可以跑js,所以同樣可以跑dom節點,用來進行網頁抓取是再好不過了。

比如我們要批量抓取網頁 “歷史上的今天” 的內容。網站

對dom結構的觀察發現,我們只需要取到 .list li a的title值即可。因此我們利用高級選擇器構建dom片段

var d= ''var c = document.querySelectorAll('.list li a')var l = c.length;for(var i =0;i<l;i++){d=d+c[i].title+'/n'}

之后只需要讓js代碼在phantomjs里跑起來即可~

var page = require('webpage').create();	page.open('http://www.todayonhistory.com/', function (status) { //打開頁面		if (status !== 'success') {			console.log('FAIL to load the address');		} else {			console.log(page.evaluate(function () {					var d= ''					var c = document.querySelectorAll('.list li a')					var l = c.length;					for(var i =0;i<l;i++){					d=d+c[i].title+'/n'					}						return d				}))		}		phantom.exit();	});

最終我們另存為catch.js,在dos里面執行一下,輸出內容到txt文件(也可以用phantomjs的文件api來寫)

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 永嘉县| 共和县| 横峰县| 浑源县| 余干县| 威信县| 罗源县| 许昌市| 和田市| 惠安县| 宜丰县| 绥芬河市| 镇江市| 循化| 宜良县| 河北省| 杭锦后旗| 广汉市| 永兴县| 巴林左旗| 阿荣旗| 嘉祥县| 青海省| 九龙城区| 泰兴市| 育儿| 乌兰察布市| 焦作市| 襄汾县| 张家川| 香港 | 辽宁省| 杭州市| 高尔夫| 延长县| 东源县| 威宁| 吕梁市| 闵行区| 湖口县| 江西省|