国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 語言 > JavaScript > 正文

Node.JS利用PhantomJs抓取網(wǎng)頁入門教程

2024-05-06 15:17:00
字體:
來源:轉載
供稿:網(wǎng)友

前言

當想用 nodejs 抓取一些網(wǎng)頁 , 我第一反應想到的就是使用 http 模塊 , 比如抓取百度首頁:

var http = require('http');var req = http.request('http://www.baidu.com/', function (res) { res.setEncoding('utf8'); res.on('data', function (chunk) {  //響應內容  console.log(chunk) });});req.end(function () { // console.log('連接關閉');});

但是 , 這僅限于簡單地抓取 html , 有很大的局限性。

假如你想要的內容不在 html 里 , 而是 js 動態(tài)生成的 , 那 http 模塊就不能滿足你的需求了 ;

假如網(wǎng)頁使 gbk 編碼的 , 上述方法也不太好用了。

假如是 https 上述方法也要改一改了。

我渴望一個更強大 , 但使用起來也不麻煩的工具。

PhantomJs

用 PhantomJs 就可以解決上述問題。

PhantomJs 就是一個沒有界面的瀏覽器。

安裝

使用 cnpm 安裝 PhantomJS 即可:

cnpm install phantomjs --save-dev

這里我沒有選擇全局安裝 , 因為全局安裝的話 , 別人使用我的源碼的時候 , 不知道還有這么一個依賴 , 項目就跑不起來了。

如果你也選擇局部安裝 , 那么你需要在 package.json 里的 scripts 中加入一段 :

"phantomjs":"node_modules/.bin/phantomjs"

等下會用到這個的 , 到這里 , 安裝算完成了。

寫代碼

我們新建一個文件 , 名字隨意 , 這里我新建一個 main.js :

var webpage = require('webpage');var page = webpage.create();page.open('http://www.baidu.com/', function (status) { var data; if (status === 'fail') {  console.log('open page fail!'); } else {  console.log(page.content);//打印出HTML內容 } page.close();//關閉網(wǎng)頁 phantom.exit();//退出phantomjs命令行});

這里有個 webpage 模塊 , 我們剛才明明沒有這個模塊 , 為什么能引用這個模塊 ???

當然不能引用 , 假如我們使用 node main.js 來跑這段代碼 , 是跑不起來的 , 應該這樣運行這段代碼 :

npm run phantomjs main.js

這里的 npm run phantomjs 對應的就是前面我們在 package.json 里加入的那段命令 , 很方便吧 , 幾乎和 http 模塊一樣方便。

page.content 就是 html 代碼了 , 這個 page 對象還有很多的屬性 , 功能更強大。

到這里 , 你就已經(jīng)算入門了 , 想知道更多可以去 phantomjs 官網(wǎng)看看文檔了。

總結

以上就是這篇文章的全部內容了,希望本文的內容對大家的學習或者工作能帶來一定的幫助,如果有疑問大家可以留言交流,謝謝大家對錯新站長站的支持。

發(fā)表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發(fā)表

圖片精選

主站蜘蛛池模板: 红安县| 太仆寺旗| 万安县| 辽源市| 渭南市| 老河口市| 华坪县| 博野县| 乌鲁木齐市| 高邑县| 岱山县| 克拉玛依市| 辽宁省| 南涧| 托克托县| 木兰县| 孟村| 凤台县| 贺兰县| 昂仁县| 资源县| 哈巴河县| 隆安县| 青海省| 朝阳市| 勃利县| 尚义县| 寻甸| 万全县| 永定县| 修水县| 桐城市| 芒康县| 阳西县| 会昌县| 盐亭县| 女性| 涿鹿县| 霸州市| 凤台县| 修武县|