国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 開發 > JS > 正文

node實現爬蟲的幾種簡易方式

2024-05-06 16:54:24
字體:
來源:轉載
供稿:網友

說到爬蟲大家可能會覺得很NB的東西,可以爬小電影,羞羞圖,沒錯就是這樣的。在node爬蟲方面,我也是個新人,這篇文章主要是給大家分享幾種實現node

爬蟲的方式。第一種方式,采用node,js中的 superagent+request + cheerio。cheerio是必須的,它相當于node版的jQuery,用過jQuery的同學會非常容易上手。它

主要是用來獲取抓取到的頁面元素和其中的數據信息。superagent是node里一個非常方便的、輕量的、漸進式的第三方客戶端請求代理模塊,用他來請求目標頁面。

node中,http模塊也可作為客戶端使用(發送請求),第三方模塊request對其使用方法進行了封裝,操作更方便。以下是三者的引入方法:

node,爬蟲

接下來我們開始請求要爬取的目標頁面。申明目標頁面比如新浪網首頁:

node,爬蟲

如新浪首頁部分代碼

  node,爬蟲

通過superagent請求目標網站,獲取到網站內容,通過cheerio.load方法引入要解析的html
cheerio中的有關DOM操作的方式

node,爬蟲

此處采用 .each(function(index,element){...})方式遍歷需要的元素

node,爬蟲

返回結果如下:

node,爬蟲

若要將文字內容存儲可采用以下方式:

引入fs模塊const fs= require("fs")

引入path模塊 const path=require("path")

Node.js 內置的fs模塊就是文件系統模塊,負責讀寫文件。和所有其他JS模塊不同的是,fs模塊同時提供了異步和同步的方法。

在上述方法中調用存儲文字內容mkdirs方法

//存放數據mkdirs('./content2',saveContent); (注: content2是新建文件名;saveContent是回調函數)

node,爬蟲

文字內容最終將存儲在content2中的content.txt文件中

若想存儲圖片可采用以下方式:

node,爬蟲

第二種方式: 使用Nightmare自動化測試工具。

這里介紹一下nightmare工具的用途:

Electron可以讓你使用純JavaScript調用Chrome豐富的原生的接口來創造桌面應用。你可以把它看作一個專注于桌面應用的Node.js的變體,而不是Web服務器。

其基于瀏覽器的應用方式可以極方便的做各種響應式的交互

Nightmare是一個基于Electron的框架,針對Web自動化測試和爬蟲,因為其具有跟PlantomJS一樣的自動化測試的功能可以在頁面上模擬用戶的行為觸發一些異步數據加載,

也可以跟Request庫一樣直接訪問URL來抓取數據,并且可以設置頁面的延遲時間,所以無論是手動觸發腳本還是行為觸發腳本都是輕而易舉的。

const Nightmare=require("nightmare") //自動化測試包 ,處理動態頁面const nightmare=Nightmare({show: true}) show:true時,運行node可以顯示內置模擬瀏覽器

node,爬蟲

運行結束后,會在image2中存儲下載的圖片。

好了,文章就到這里了,有什么問題歡迎小伙伴指正。

總結

以上就是這篇文章的全部內容了,希望本文的內容對大家的學習或者工作具有一定的參考學習價值,謝謝大家對VeVb武林網的支持。


注:相關教程知識閱讀請移步到JavaScript/Ajax教程頻道。
發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 新疆| 怀安县| 黄冈市| 辉县市| 浮梁县| 建昌县| 新昌县| 富平县| 五指山市| 双桥区| 台州市| 馆陶县| 扶绥县| 七台河市| 洛阳市| 隆尧县| 汪清县| 昌黎县| 云南省| 玉门市| 永宁县| 永寿县| 宜章县| 南开区| 榕江县| 健康| 济宁市| 修武县| 鹤峰县| 临江市| 武清区| 镇原县| 勐海县| 阿合奇县| 祁门县| 瑞丽市| 浮山县| 康马县| 江山市| 嘉善县| 天门市|