簡(jiǎn)介
用node.js寫了一個(gè)簡(jiǎn)單的小爬蟲,用來爬取拉勾網(wǎng)上的招聘信息,共爬取了北京、上海、廣州、深圳、杭州、西安、成都7個(gè)城市的數(shù)據(jù),分別以前端、PHP、java、c++、python、Android、ios作為關(guān)鍵詞進(jìn)行爬取,爬到的數(shù)據(jù)以json格式儲(chǔ)存到本地,為了方便觀察,我將數(shù)據(jù)整理了一下供大家參考
數(shù)據(jù)結(jié)果

上述數(shù)據(jù)為3月13日22時(shí)爬取的數(shù)據(jù),可大致反映各個(gè)城市對(duì)不同語言的需求量。
爬取過程展示
控制并發(fā)進(jìn)行爬取

爬取到的數(shù)據(jù)文件

json數(shù)據(jù)文件

爬蟲程序
實(shí)現(xiàn)思路
請(qǐng)求拉鉤網(wǎng)的 “https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false&city=城市&kd=關(guān)鍵詞&pn=頁數(shù)”可以返回一個(gè)json格式的數(shù)據(jù),該數(shù)據(jù)包含所要請(qǐng)求職位的信息,省去了使用chreio解析的麻煩,所以直接用superagent來進(jìn)行請(qǐng)求上述地址,并將數(shù)據(jù)儲(chǔ)存在本地即可,其中參數(shù)city是為城市,kd為所要搜索的關(guān)鍵詞,pn為要請(qǐng)求的頁數(shù),當(dāng)中使用到了async來控制異步流程,使得并發(fā)數(shù)不超過3,防止被封ip。
代碼地址及使用
github:https://github.com/zsqosos/positionAnalysis
代碼請(qǐng)?jiān)趃ithub上查看,使用該程序需要安裝node環(huán)境,如果覺得還不錯(cuò)的話煩請(qǐng)給個(gè)star,歡迎大家修改使用該程序。
以上就是本文的全部?jī)?nèi)容,希望本文的內(nèi)容對(duì)大家的學(xué)習(xí)或者工作能帶來一定的幫助,同時(shí)也希望多多支持武林網(wǎng)!
新聞熱點(diǎn)
疑難解答
圖片精選
網(wǎng)友關(guān)注