国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 學院 > 開發設計 > 正文

快速搭建基于《搜狗微信》的公眾號爬蟲---搜狗微信公眾號爬蟲教程

2019-11-08 18:41:54

字體：大中小

來源：轉載

供稿：網友

這個教程是基于我開源的一份python源碼，各位看官請先下載源碼。

源碼下載地址：https://github.com/jaryee/wechat_sogou_crawl

環境配置咱這里就不講了，網上一大堆教程，請先配置好python2.7+MySQL

注意，python版本為2.7，需要安裝如下模塊：

requests 、pymysql、lxml、Pillow、werkzeug

安裝就是在CMD控制臺里直接：pip install pymysql 回車

安裝時如果某個模塊安裝失敗，可以去下面這個網址里下載別人編譯好的whl模塊文件，下載自己對應的版本

http://www.lfd.uci.edu/~gohlke/pythonlibs

下載好后直接在CMD控制臺里：pip install xxx.whl 回車就可以了

好，現在來創建對應的數據庫，先創建一個數據庫，名字隨意，比如：jubang，格式為 utf8mb4,創建好后在該數據庫導入剛才下載的源碼包里的：jubang.sql文件，

這樣，數據庫表就創建完成了，一共有4個表，分別是：

mp_info：所有咱們需要抓取的公眾號信息都保存在這里

wenzhang_info：公眾號發布的文章信息都保存在這里

wenzhang_statistics：每次抓取文章閱讀及點攢時，都在會這個表里保存一份增量數據，可以使用該表中的數據生成一篇文章的閱讀變化趨勢圖

add_mp_list：這個表是用來增加指定的公眾號的，咱想要抓哪個公眾號，就打開這個表，把公眾號名稱或者公眾號的微信號加入這個表，然后執行一下源碼中的auto_add_mp.py就可以啦

下面打開源碼包中的config.py文件，將其中數據庫的設置，修改為你的數據庫信息，用戶名密碼，ip之類的，到這里我們就成功部署好了搜狗微信爬蟲啦，現在來看看他的能力吧！

如何使用爬蟲呢？

一、更新數據庫最新文章

執行updatemp.py,就會去查看咱指定的公眾號是否有新文章發布了，如果有，就把新發布的文章入庫，這里咱做了排重，不會重復抓相同文章

二、更新文章閱讀數據

執行updatewenzhang.py，就會去更新文章表中的最近24小時之內的文章閱讀數據，如果修改為指定時間，比如12小時或36小時，可以修改updatewenzhang.py文件，大家自己看一下文件中有注釋解釋了如何修改

三、添加指定的公眾號

打開數據庫表add_mp_list，把想要抓取的公眾號名稱或者公眾號的微信號加入這個表，可以一次增加多條，然后執行一下源碼中的auto_add_mp.py就可以啦

注意：搜狗微信網站如果訪問頻繁了會出現驗證碼，導致我們不能正常爬取，不要怕，咱的代碼里已經加了驗證碼自動識別模塊：若快識別，請在下面的鏈接中注冊若快用戶，然后把注冊的用戶和密碼填寫到源碼中的config.py文件中就可以啦，若快識別大約是兩個驗證碼1分錢，大家根據自己的需要充值就可以了

http://www.ruokuai.com

好啦，到這里基于搜狗微信的公眾號爬蟲就全部搞定啦，是不是非常簡單，讓我們快樂的爬起來吧，哈哈~~

后面還會有基于微信接口的教程，搜狗微信無法抓取公眾號全部歷史文章及閱讀數據，而基于微信接口就可以實現這個偉大的目標了，大家一起期待吧！

您的支持，就是我開源的動力！！！

上一篇：CString轉十六進制數字

下一篇：513:find bottom left tree value

學習交流

索泰發布一款GTX 1070 Mini迷你版本:小機

索泰發布一款GTX 1070 Mini迷你版本:小機箱大愛...

熱門圖片

猜你喜歡的新聞

猜你喜歡的關注

新聞熱點

榮耀總裁趙明烏鎮演講：榮耀首款5G手機V30下月發布

2019-10-23 09:17:05

搜狐張朝陽：回歸媒體是搜狐重新崛起的關鍵

2019-10-21 09:20:02

華為輪值董事長郭平：虛擬技術創造現實價值

2019-10-21 09:00:12

滴滴英文服務上線兩周年用戶已超200萬

2019-09-26 08:57:12

華為推出全球至快AI訓練集群Atlas900

2019-09-25 08:46:36

馬斯克：特斯拉正組建中國技術團隊

2019-09-25 08:15:43

疑難解答

圖片精選

網友關注

主站蜘蛛池模板：孝义市| 宝丰县| 和平县| 桂林市| 太保市| 德保县| 吴江市| 息烽县| 日照市| 牙克石市| 高邑县| 中山市| 阿拉善右旗| 八宿县| 巨鹿县| 霍山县| 辽宁省| 体育| 松滋市| 红安县| 沂源县| 梁平县| 南澳县| 东辽县| 鄂尔多斯市| 广河县| 南川市| 任丘市| 增城市| 定日县| 左权县| 龙门县| 喜德县| 武邑县| 西吉县| 会理县| 武义县| 微博| 长寿区| 沅陵县| 海门市|