因為廣義線性模型是圍繞指數(shù)分布族的,因此需要先介紹,用NG大神的話說就是,“雖然不是全部,但是我們見過的大多數(shù)分布都屬于指數(shù)分布族,比如:Bernoulli伯努利分布、Gaussian高斯分布、multinomial多項分布、Poisson泊松分布、gamma分布、指數(shù)分布、Dirichlet分布……”服從指數(shù)分布族的條件是概率分布可以寫成如下形式:

η 被稱作natural parameter,它是指數(shù)分布族唯一的參數(shù)T(y) 被稱作sufficient statistic,很多情況下T(y)=y a(η) 被稱作 log partition functionT函數(shù)、a函數(shù)、b函數(shù)共同確定一種分布接下來看一下為什么說正態(tài)分布(高斯分布)屬于指數(shù)分布族:正態(tài)分布(正態(tài)分布有兩個參數(shù)μ均值與σ標準差,在做線性回歸的時候,我們關心的是均值而標準差不影響模型的學習與參數(shù)θ的選擇,因此這里將σ設為1便于計算)

2.構成廣義線性模型的三個假設
p(y | x; θ) ~ ExponentialFamily(η). 輸出變量基于輸入變量的條件概率分布服從指數(shù)分布族
our goal is to PRedict the expected value of T(y) given x. 對于給定的輸入變量x,學習的目標是預測T(y)的期望值,T(y)經(jīng)常就是yThe natural parameter η and the inputs x are related linearly: η = θT x. η和輸入變量x的關聯(lián)是線性的:η = θT x
這三個假設其實指明了如何從輸入變量映射到輸出變量與概率模型,舉例來說:線性回歸的條件概率分布為正態(tài)分布屬于指數(shù)分布族(參考筆記一中線性回歸的似然函數(shù)部分);我們的目標是預測T(y)的期望,由上面的計算我們知道T(y)=y,而y的期望值也就是正態(tài)分布的參數(shù)μ;由上面的計算我們知道μ=η,而η=θT x。因此,線性回歸是廣義線性回歸的一個特例,它的模型是:


經(jīng)典線性回歸:預測值y是連續(xù)的,假設給定x和參數(shù),y的概率分布服從高斯分布(對應構建GLM的第一條假設)。 邏輯回歸:以二分類為例,預測值y是二值的{1,0},假設給定x和參數(shù),y的概率分布服從伯努利分布(對應構建GLM的第一條假設)。
通過這樣學習到GLM模型的建立。
新聞熱點
疑難解答