介紹
對于繪制某些類型的數(shù)據(jù)來說,瀑布圖是一種十分有用的工具。不足為奇的是,我們可以使用Pandas和matplotlib創(chuàng)建一個可重復(fù)的瀑布圖。
在往下進(jìn)行之前,我想先告訴大家我指代的是哪種類型的圖表。我將建立一個維基百科文章中描述的2D瀑布圖。
這種圖表的一個典型的用處是顯示開始值和結(jié)束值之間起“橋梁”作用的+和-的值。因為這個原因,財務(wù)人員有時會將其稱為一個橋梁。跟我之前所采用的其他例子相似,這種類型的繪圖在Excel中不容易生成,當(dāng)然肯定有生成它的方法,但是不容易記住。
關(guān)于瀑布圖需要記住的關(guān)鍵點(diǎn)是:它本質(zhì)上是一個堆疊在一起的條形圖,不過特殊的一點(diǎn)是,它有一個空白底欄,所以頂部欄會“懸浮”在空中。那么,讓我們開始吧。
創(chuàng)建圖表
首先,執(zhí)行標(biāo)準(zhǔn)的輸入,并確保IPython能顯示matplot圖。
import numpy as npimport pandas as pdimport matplotlib.pyplot as plt %matplotlib inline
設(shè)置我們想畫出瀑布圖的數(shù)據(jù),并將其加載到數(shù)據(jù)幀(DataFrame)中。
數(shù)據(jù)需要以你的起始值開始,但是你需要給出最終的總數(shù)。我們將在下面計算它。
index = ['sales','returns','credit fees','rebates','late charges','shipping']data = {'amount': [350000,-30000,-7500,-25000,95000,-7000]}trans = pd.DataFrame(data=data,index=index)我使用了IPython中便捷的display函數(shù)來更簡單地控制我要顯示的內(nèi)容。
from IPython.display import displaydisplay(trans)

瀑布圖的最大技巧是計算出底部堆疊條形圖的內(nèi)容。有關(guān)這一點(diǎn),我從stackoverflow上的討論中學(xué)到很多。
首先,我們得到累積和。
display(trans.amount.cumsum())sales 350000returns 320000credit fees 312500rebates 287500late charges 382500shipping 375500Name: amount, dtype: int64
這看起來不錯,但我們需要將一個地方的數(shù)據(jù)轉(zhuǎn)移到右邊。
blank=trans.amount.cumsum().shift(1).fillna(0)display(blank) sales 0returns 350000credit fees 320000rebates 312500late charges 287500shipping 382500Name: amount, dtype: float64
我們需要向trans和blank數(shù)據(jù)幀中添加一個凈總量。
total = trans.sum().amounttrans.loc["net"] = totalblank.loc["net"] = totaldisplay(trans)display(blank)

sales 0returns 350000credit fees 320000rebates 312500late charges 287500shipping 382500net 375500Name: amount, dtype: float64
創(chuàng)建我們用來顯示變化的步驟。
step = blank.reset_index(drop=True).repeat(3).shift(-1)step[1::3] = np.nandisplay(step) 0 00 NaN0 3500001 3500001 NaN1 3200002 3200002 NaN2 3125003 3125003 NaN3 2875004 2875004 NaN4 3825005 3825005 NaN5 3755006 3755006 NaN6 NaNName: amount, dtype: float64
對于“net”行,為了不使堆疊加倍,我們需要確保blank值為0。
blank.loc["net"] = 0
然后,將其畫圖,看一下什么樣子。
my_plot = trans.plot(kind='bar', stacked=True, bottom=blank,legend=None, title="2014 Sales Waterfall")my_plot.plot(step.index, step.values,'k')

看起來相當(dāng)不錯,但是讓我們試著格式化Y軸,以使其更具有可讀性。為此,我們使用FuncFormatter和一些Python2.7+的語法來截斷小數(shù)并向格式中添加一個逗號。
def money(x, pos): 'The two args are the value and tick position' return "${:,.0f}".format(x) from matplotlib.ticker import FuncFormatterformatter = FuncFormatter(money)然后,將其組合在一起。
my_plot = trans.plot(kind='bar', stacked=True, bottom=blank,legend=None, title="2014 Sales Waterfall")my_plot.plot(step.index, step.values,'k')my_plot.set_xlabel("Transaction Types")my_plot.yaxis.set_major_formatter(formatter)
完整腳本
基本圖形能夠正常工作,但是我想添加一些標(biāo)簽,并做一些小的格式修改。下面是我最終的腳本:
import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom matplotlib.ticker import FuncFormatter #Use python 2.7+ syntax to format currencydef money(x, pos): 'The two args are the value and tick position' return "${:,.0f}".format(x)formatter = FuncFormatter(money) #Data to plot. Do not include a total, it will be calculatedindex = ['sales','returns','credit fees','rebates','late charges','shipping']data = {'amount': [350000,-30000,-7500,-25000,95000,-7000]} #Store data and create a blank series to use for the waterfalltrans = pd.DataFrame(data=data,index=index)blank = trans.amount.cumsum().shift(1).fillna(0) #Get the net total number for the final element in the waterfalltotal = trans.sum().amounttrans.loc["net"]= totalblank.loc["net"] = total #The steps graphically show the levels as well as used for label placementstep = blank.reset_index(drop=True).repeat(3).shift(-1)step[1::3] = np.nan #When plotting the last element, we want to show the full bar,#Set the blank to 0blank.loc["net"] = 0 #Plot and labelmy_plot = trans.plot(kind='bar', stacked=True, bottom=blank,legend=None, figsize=(10, 5), title="2014 Sales Waterfall")my_plot.plot(step.index, step.values,'k')my_plot.set_xlabel("Transaction Types") #Format the axis for dollarsmy_plot.yaxis.set_major_formatter(formatter) #Get the y-axis position for the labelsy_height = trans.amount.cumsum().shift(1).fillna(0) #Get an offset so labels don't sit right on top of the barmax = trans.max()neg_offset = max / 25pos_offset = max / 50plot_offset = int(max / 15) #Start label looploop = 0for index, row in trans.iterrows(): # For the last item in the list, we don't want to double count if row['amount'] == total: y = y_height[loop] else: y = y_height[loop] + row['amount'] # Determine if we want a neg or pos offset if row['amount'] > 0: y += pos_offset else: y -= neg_offset my_plot.annotate("{:,.0f}".format(row['amount']),(loop,y),ha="center") loop+=1 #Scale up the y axis so there is room for the labelsmy_plot.set_ylim(0,blank.max()+int(plot_offset))#Rotate the labelsmy_plot.set_xticklabels(trans.index,rotation=0)my_plot.get_figure().savefig("waterfall.png",dpi=200,bbox_inches='tight')運(yùn)行該腳本將生成下面這個漂亮的圖表:

最后的想法
如果你之前不熟悉瀑布圖,希望這個示例能夠向你展示它到底是多么有用。我想,可能一些人會覺得對于一個圖表來說需要這么多的腳本代碼有點(diǎn)糟糕。在某些方面,我同意這種想法。如果你僅僅只是做一個瀑布圖,而以后不會再碰它,那么你還是繼續(xù)用Excel中的方法吧。
然而,如果瀑布圖真的很有用,并且你需要將它復(fù)制給100個客戶,將會怎么樣呢?接下來你將要怎么做呢?此時使用Excel將會是一個挑戰(zhàn),而使用本文中的腳本來創(chuàng)建100個不同的表格將相當(dāng)容易。再次說明,這一程序的真正價值在于,當(dāng)你需要擴(kuò)展這個解決方案時,它能夠便于你創(chuàng)建一個易于復(fù)制的程序。
我真的很喜歡學(xué)習(xí)更多Pandas、matplotlib和IPothon的知識。我很高興這種方法能夠幫到你,并希望其他人也可以從中學(xué)習(xí)到一些知識,并將這一課所學(xué)應(yīng)用到他們的日常工作中。
新聞熱點(diǎn)
疑難解答
圖片精選