聲明:動作危險,切勿模仿!
1、聽從廣大網(wǎng)友勸導,目前程序已停止運行!QQ空間也已升級訪問安全機制。
2、本“分析”數(shù)據(jù)源自部分用戶的公開信息,并未觸及隱私內容,廣大網(wǎng)友無需擔心。
3、QQ空間會不定期發(fā)布大數(shù)據(jù)分析報告,感興趣的朋友關注騰訊大數(shù)據(jù)官方公眾號。
感謝博客園! 轉載請注明博客園地址,及作者hi@wuxinsheng.com。
這是我近期使用C#寫的一個QQ空間蜘蛛網(wǎng)爬蟲程序。程序斷斷續(xù)續(xù)的運行了兩周,目前總共爬了3000萬QQ數(shù)據(jù),其中有300萬包含用戶(QQ號,昵稱,空間名稱,頭像,最新一條說說內容,最新說說的發(fā)表時間,空間簡介,性別,生日,所在省份,城市)的詳細數(shù)據(jù)。

目前已經(jīng)爬到我的第7圈好友(depth=7)共3000萬數(shù)據(jù)。

爬蟲主程序運行界面:

爬蟲程序設計:
大致設計思路是模仿工廠的生產(chǎn)車間,使用三大獨立循環(huán)線程組(GetWaitList,CrawlerQQInfos,SaveData)。

詳細設計圖:

再看看,我根據(jù)這份數(shù)據(jù)生成的一些有趣的統(tǒng)計圖吧!
內存已經(jīng)爆了,不能怪我。 誰贊助臺服務器吧

1、大家一般都在啥時候發(fā)說說呢?

從圖中看出一天最冷門的時候是凌晨4點,這時全國正在睡覺的人最多。 大家最亢奮的是晚上10點到11點,人們都喜歡睡前看看別人的空間,發(fā)條說說。中午12點左右也有一波小高峰。
2、中國人都喜歡在幾月生小孩呢?

從圖中可看出1月和10月出生的人最多,4月的最少。總體來說上半年的出生率比下半年的低。分析可得,1月多是因為很多人填的是默認的1月1號。4月少,是因為中國人不喜歡4這個數(shù)字。10月出生率最高,是因為那時天氣不冷不熱,秋收后也不是太忙了的原因。
3、這是我目前爬取的數(shù)據(jù)人群地區(qū)分布

4、數(shù)據(jù)人群的年齡分布

如上兩張圖,整好和我的信息相吻合。我是湖南人,在江蘇讀的書,而湖南大部分人都在廣東打工。所以地區(qū)分布中,這三個省整好排在前四名當中。而我又是1990年出生的,對應年齡分布圖1990年的用戶最多。從目前的數(shù)據(jù)來看,無論是分布地區(qū)以及年齡階段與我的關聯(lián)還非常大,隨著數(shù)據(jù)量的不斷增加這種關聯(lián)會逐漸變小,統(tǒng)計圖也會逐漸接近全國用戶的真實情況。
5、數(shù)據(jù)人群性別分布

男比女足足多了23%的人數(shù),我分析認為實際差距應該是不大的,但女生在設置QQ空間訪問權限時普遍要比男生的高。所以我爬取的數(shù)據(jù)中男生居多。
6、下面系列圖是根據(jù)一些“關鍵字”在說說中出現(xiàn)的頻率統(tǒng)計出來的,相當有意思。
單個用戶的行為是很難看出規(guī)律的,大數(shù)據(jù)的意義在于它會不斷矯正那個平衡點,從而得出反應宏觀現(xiàn)象最真實的情況。數(shù)據(jù)量越大,平衡點動蕩的幅度便越小。進而能夠根據(jù)當前的數(shù)據(jù)趨勢預測后續(xù)的發(fā)展,為決策提供有力依據(jù)!
6.1 圖說股市

現(xiàn)在我們擁有海量的互聯(lián)網(wǎng)社交數(shù)據(jù),如QQ的說說,sina的微博數(shù)據(jù)。我覺得這些數(shù)據(jù)擁有驚人的利用價值,這非常值得我們去研究,去挖掘。我想,用它們來做一些股市或者其它方面的分析預測是可行的,準確度應該也是非常高的。
將股票中的關鍵字做海量數(shù)據(jù)分析,比如會得出當日討論股票熱度排行榜。進而能得到海量討論股票的用戶,再通過市場的實際反饋找出股票上漲及下跌的正相關因子,再對這些海量數(shù)據(jù)進行分析計算得出最靠譜股票推薦大神排行榜。對這些用戶分級,分優(yōu)先度及抓取密度來拿數(shù)據(jù)。用這些數(shù)據(jù)分析出哪些是靠譜的股票肯定靠譜!
6.2 群眾討論最多的明星排行榜,還是很靠譜的。(我愛汪峰哥,我也愛Jay! ---信仰在空中飄揚)
插播汪峰頭條:素不相識,光聽新聞的片面之詞就斷下結論,那是完整的真相嗎?背后的故事又有誰了解多少?實在反感那些破口大罵的,更是可惡一些媒體就事三番五次的戲謔。
祝峰哥幸福,我很喜歡你的歌!

6.3 最為用戶喜愛的手機品牌

6.4 人們最喜歡談論的互聯(lián)網(wǎng)公司,阿里之所以這么低估計是大家都喜歡叫它淘寶或者天貓吧。

6.5 QQ空間中討論的最為頻繁的社交平臺排行榜。

6.6 生活的統(tǒng)計圖
愛>恨; 開心>傷心; 笑聲>嘆氣聲; 吃貨很多; 誰特么說中國不幸福了,這滿滿的都是正能量數(shù)據(jù)啊。

好了,其實還可以做很多其它的分析。如果大家有什么有趣的數(shù)據(jù)分析想知道的,那就給我留言吧。
技術不多說了,程序不難,多線程數(shù)據(jù)庫操作卻是把我搞苦了。還好,現(xiàn)在程序差不多穩(wěn)定了。過程也是很有意思的,有空我再寫個程序升級過程中的那些趣事吧。我覺得一個美妙的程序一定是高度模擬現(xiàn)實的,就像飛機模仿蜻蜓,雷達模仿蝙蝠一樣。 這次的程序設計就是模擬的工廠的生產(chǎn)線。
新聞熱點
疑難解答