国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 學院 > 開發設計 > 正文

快速搭建基于《搜狗微信》的公眾號爬蟲---搜狗微信公眾號爬蟲教程

2019-11-08 18:41:54
字體:
來源:轉載
供稿:網友

這個教程是基于我開源的一份python源碼,各位看官請先下載源碼。

源碼下載地址:https://github.com/jaryee/wechat_sogou_crawl

環境配置咱這里就不講了,網上一大堆教程,請先配置好python2.7+MySQL

注意,python版本為2.7,需要安裝如下模塊:

requests 、pymysql、lxml、Pillow、werkzeug

安裝就是在CMD控制臺里直接:pip install pymysql  回車

安裝時如果某個模塊安裝失敗,可以去下面這個網址里下載別人編譯好的whl模塊文件,下載自己對應的版本

http://www.lfd.uci.edu/~gohlke/pythonlibs

下載好后直接在CMD控制臺里:pip install xxx.whl 回車就可以了

好,現在來創建對應的數據庫,先創建一個數據庫,名字隨意,比如:jubang,格式為 utf8mb4,創建好后在該數據庫導入剛才下載的源碼包里的:jubang.sql文件,

這樣,數據庫表就創建完成了,一共有4個表,分別是:

mp_info:所有咱們需要抓取的公眾號信息都保存在這里

wenzhang_info:公眾號發布的文章信息都保存在這里

wenzhang_statistics:每次抓取文章閱讀及點攢時,都在會這個表里保存一份增量數據,可以使用該表中的數據生成一篇文章的閱讀變化趨勢圖

add_mp_list:這個表是用來增加指定的公眾號的,咱想要抓哪個公眾號,就打開這個表,把公眾號名稱或者公眾號的微信號加入這個表,然后執行一下源碼中的auto_add_mp.py就可以啦

下面打開源碼包中的config.py文件,將其中數據庫的設置,修改為你的數據庫信息,用戶名密碼,ip之類的,到這里我們就成功部署好了搜狗微信爬蟲啦,現在來看看他的能力吧!

如何使用爬蟲呢?

一、更新數據庫最新文章

執行updatemp.py,就會去查看咱指定的公眾號是否有新文章發布了,如果有,就把新發布的文章入庫,這里咱做了 排重,不會重復抓相同文章

二、更新文章閱讀數據

執行updatewenzhang.py,就會去更新文章表中的最近24小時之內的文章閱讀數據,如果修改為指定時間,比如12小時或36小時,可以修改updatewenzhang.py文件,大家自己看一下文件中有注釋解釋了如何修改

三、添加指定的公眾號

打開數據庫表add_mp_list,把想要抓取的公眾號名稱或者公眾號的微信號加入這個表,可以一次增加多條,然后執行一下源碼中的auto_add_mp.py就可以啦

注意:搜狗微信網站如果訪問頻繁了會出現驗證碼,導致我們不能正常爬取,不要怕,咱的代碼里已經加了驗證碼自動識別模塊:若快識別,請在下面的鏈接中注冊若快用戶,然后把注冊的用戶和密碼填寫到源碼中的config.py文件中就可以啦,若快識別大約是兩個驗證碼1分錢,大家根據自己的需要充值就可以了

http://www.ruokuai.com

好啦,到這里基于搜狗微信的公眾號爬蟲就全部搞定啦,是不是非常簡單,讓我們快樂的爬起來吧,哈哈~~

后面還會有基于微信接口的教程,搜狗微信無法抓取公眾號全部歷史文章及閱讀數據,而基于微信接口就可以實現這個偉大的目標了,大家一起期待吧!

您的支持,就是我開源的動力!!!


發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 孝义市| 宝丰县| 和平县| 桂林市| 太保市| 德保县| 吴江市| 息烽县| 日照市| 牙克石市| 高邑县| 中山市| 阿拉善右旗| 八宿县| 巨鹿县| 霍山县| 辽宁省| 体育| 松滋市| 红安县| 沂源县| 梁平县| 南澳县| 东辽县| 鄂尔多斯市| 广河县| 南川市| 任丘市| 增城市| 定日县| 左权县| 龙门县| 喜德县| 武邑县| 西吉县| 会理县| 武义县| 微博| 长寿区| 沅陵县| 海门市|