這個教程是基于我開源的一份python源碼,各位看官請先下載源碼。
源碼下載地址:https://github.com/jaryee/wechat_sogou_crawl
環境配置咱這里就不講了,網上一大堆教程,請先配置好python2.7+MySQL
注意,python版本為2.7,需要安裝如下模塊:
requests 、pymysql、lxml、Pillow、werkzeug
安裝就是在CMD控制臺里直接:pip install pymysql 回車
安裝時如果某個模塊安裝失敗,可以去下面這個網址里下載別人編譯好的whl模塊文件,下載自己對應的版本
http://www.lfd.uci.edu/~gohlke/pythonlibs
下載好后直接在CMD控制臺里:pip install xxx.whl 回車就可以了
好,現在來創建對應的數據庫,先創建一個數據庫,名字隨意,比如:jubang,格式為 utf8mb4,創建好后在該數據庫導入剛才下載的源碼包里的:jubang.sql文件,
這樣,數據庫表就創建完成了,一共有4個表,分別是:
mp_info:所有咱們需要抓取的公眾號信息都保存在這里
wenzhang_info:公眾號發布的文章信息都保存在這里
wenzhang_statistics:每次抓取文章閱讀及點攢時,都在會這個表里保存一份增量數據,可以使用該表中的數據生成一篇文章的閱讀變化趨勢圖
add_mp_list:這個表是用來增加指定的公眾號的,咱想要抓哪個公眾號,就打開這個表,把公眾號名稱或者公眾號的微信號加入這個表,然后執行一下源碼中的auto_add_mp.py就可以啦
下面打開源碼包中的config.py文件,將其中數據庫的設置,修改為你的數據庫信息,用戶名密碼,ip之類的,到這里我們就成功部署好了搜狗微信爬蟲啦,現在來看看他的能力吧!
如何使用爬蟲呢?
一、更新數據庫最新文章
執行updatemp.py,就會去查看咱指定的公眾號是否有新文章發布了,如果有,就把新發布的文章入庫,這里咱做了 排重,不會重復抓相同文章
二、更新文章閱讀數據
執行updatewenzhang.py,就會去更新文章表中的最近24小時之內的文章閱讀數據,如果修改為指定時間,比如12小時或36小時,可以修改updatewenzhang.py文件,大家自己看一下文件中有注釋解釋了如何修改
三、添加指定的公眾號
打開數據庫表add_mp_list,把想要抓取的公眾號名稱或者公眾號的微信號加入這個表,可以一次增加多條,然后執行一下源碼中的auto_add_mp.py就可以啦
注意:搜狗微信網站如果訪問頻繁了會出現驗證碼,導致我們不能正常爬取,不要怕,咱的代碼里已經加了驗證碼自動識別模塊:若快識別,請在下面的鏈接中注冊若快用戶,然后把注冊的用戶和密碼填寫到源碼中的config.py文件中就可以啦,若快識別大約是兩個驗證碼1分錢,大家根據自己的需要充值就可以了
http://www.ruokuai.com
好啦,到這里基于搜狗微信的公眾號爬蟲就全部搞定啦,是不是非常簡單,讓我們快樂的爬起來吧,哈哈~~
后面還會有基于微信接口的教程,搜狗微信無法抓取公眾號全部歷史文章及閱讀數據,而基于微信接口就可以實現這個偉大的目標了,大家一起期待吧!
您的支持,就是我開源的動力!!!

新聞熱點
疑難解答