分享python數據統計的一些小技巧

2019-11-25 16:38:12

字體：大中小

來源：轉載

供稿：網友

最近在用python做數據統計，這里總結了一些最近使用時查找和總結的一些小技巧，希望能幫助在做這方面時的一些童鞋。有些技巧是很平常的用法，平時我們沒有注意，但是在特定場景，這些小方法還是能帶來很大的幫助。

1.在字典中將鍵映射到多個值上面

{'b': [4, 5, 6], 'a': [1, 2, 3]}

有時候我們在統計相同key值的時候，希望把所有相同key的條目添加到以key為鍵的一個字典中，然后再進行各種操作，這時候我們就可以使用下面的代碼進行操作：

from collections import defaultdictd = defaultdict(list)print(d)d['a'].append(1)d['a'].append(2)d['a'].append(3)d['b'].append(4)d['b'].append(5)d['b'].append(6)print(d)print(d.get("a"))print(d.keys())print([d.get(i) for i in d])

這里是使用了collections中的方法，這里面還擁有很多有用的方法，我們有時間在繼續進行深入了解。

上面代碼運行結果：

defaultdict(, {})defaultdict(, {'b': [4, 5, 6], 'a': [1, 2, 3]})[1, 2, 3]dict_keys(['b', 'a'])[[4, 5, 6], [1, 2, 3]]

我們將數據填入之后，相當于進行快速分組，然后遍歷每個組就可以統計一些我們需要的數據。

2.迅速轉換字典鍵值對

data = {...}zip(data.values(), data.keys())

data是我們的格式數據，使用zip后進行快速鍵值轉換，然后可以使用max，min之類函數進行數據操作。

3.通過公共鍵對字典進行排序

from operator import itemgetterdata = [  {'name': "bran", "uid": 101},  {'name': "xisi", "uid": 102},  {'name': "land", "uid": 103}]print(sorted(data, key=itemgetter("name")))print(sorted(data, key=itemgetter("uid")))

數據格式就是data，我們想要對name或者uid進行排序我們就是用代碼中的方法。
運行結果：

[{'name': 'bran', 'uid': 101}, {'name': 'land', 'uid': 103}, {'name': 'xisi', 'uid': 102}][{'name': 'bran', 'uid': 101}, {'name': 'xisi', 'uid': 102}, {'name': 'land', 'uid': 103}]

正如我們期望中的一樣

4.對列表中的多個字典根據某一字段進行分組

注意注意，在進行分組前要首先對數據進行排序處理，排序字段根據實際要求來選擇

即將處理的數據：

rows = [  {'name': "bran", "uid": 101, "class": 13},  {'name': "xisi", "uid": 101, "class": 11},  {'name': "land", "uid": 103, "class": 10}]

期望處理結果：

{101: [{'name': 'xisi', 'class': 11, 'uid': 101},{'name': 'bran', 'class': 13, 'uid': 101}],103: [{'name': 'land', 'class': 10, 'uid': 103}]}

我們按照uid進行分組，這里只是演示，uid一般也不會重復。

這個比較復雜一點，我們一部一步來分解

some = [('a', [1, 2, 3]), ('b', [4, 5, 6])]print(dict(some))

結果：

{'b': [4, 5, 6], 'a': [1, 2, 3]}

這里我們的目的是將元組轉換成字典，這個很簡單，應該都能看懂。接著我們來下一步對待處理數據進行排序：

data_one = sorted(rows, key=itemgetter("class"))print(data_one)data_two = sorted(rows, key=lambda x: (x["uid"], x["class"]))print(data_two)

這里我們提供兩種排序方式原理相同，只是樣式稍有區別，第一種data_one是直接使用itemgetter，按照我們前面使用過得，直接按照某一字段進行排序，可是有時候我們會有另一種要求：

先按照某一字段排序，當第一字段重復時，再按照另一字段排序。

這時我們就用第二種方法，進行多字段值排序。
排序結果如下：

[{'name': 'land', 'class': 10, 'uid': 103}, {'name': 'xisi', 'class': 11, 'uid': 101}, {'name': 'bran', 'class': 13, 'uid': 101}][{'name': 'xisi', 'class': 11, 'uid': 101}, {'name': 'bran', 'class': 13, 'uid': 101}, {'name': 'land', 'class': 10, 'uid': 103}]

結果大家慢慢看一下，還是略有差別。

接下來就進行最后一步了，將我們剛才講的兩種方式結合起來使用：

data = dict([(g, list(k)) for g, k in groupby(data_two, key=lambda x: x["uid"])])print(data)

我們對排序好的數據進行分組，然后生成元組列表，最后將其轉換成字典，這里大功告成，我們成功將數據進行分組。

python數據統計的一些小技巧就分享到這，有需要的可以參考學習。

上一篇：淺談Python 字符串格式化輸出(format/printf)

下一篇：python中print的不換行即時輸出的快速解決方法

學習交流

索泰發布一款GTX 1070 Mini迷你版本:小機

索泰發布一款GTX 1070 Mini迷你版本:小機箱大愛...

熱門圖片

猜你喜歡的新聞

猜你喜歡的關注

新聞熱點

榮耀總裁趙明烏鎮演講：榮耀首款5G手機V30下月發布

2019-10-23 09:17:05

搜狐張朝陽：回歸媒體是搜狐重新崛起的關鍵

2019-10-21 09:20:02

華為輪值董事長郭平：虛擬技術創造現實價值

2019-10-21 09:00:12

滴滴英文服務上線兩周年用戶已超200萬

2019-09-26 08:57:12

華為推出全球至快AI訓練集群Atlas900

2019-09-25 08:46:36

馬斯克：特斯拉正組建中國技術團隊

2019-09-25 08:15:43

疑難解答

圖片精選

網友關注

国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

分享python數據統計的一些小技巧