正則化是什么意思? 正則化技術(shù)解析

更新時間:2019年09月12日17時49分來源:傳智播客瀏覽次數(shù):

正則化是廣泛應(yīng)用于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)中的技術(shù)，它可以改善過擬合，降低結(jié)構(gòu)風(fēng)險，提高模型的泛化能力，有必要深入理解正則化技術(shù)。

奧卡姆剃刀原則

奧卡姆剃刀原則稱為“如無必要，勿增實(shí)體”，即簡單有效原理。在機(jī)器學(xué)習(xí)中，我們說在相同泛化誤差下，優(yōu)先選用較簡單的模型。依賴于該原則，提出了正則化技術(shù)。

什么是正則化及正則化的作用

正則化是在經(jīng)驗(yàn)風(fēng)險項(xiàng)后面加上正則罰項(xiàng)，使得通過最小化經(jīng)驗(yàn)風(fēng)險求解模型參數(shù)轉(zhuǎn)變?yōu)橥ㄟ^最小化結(jié)構(gòu)風(fēng)險求解模型參數(shù)，進(jìn)而選擇經(jīng)驗(yàn)風(fēng)險小并且簡單的模型。

正則化1

式中正則化2 是經(jīng)驗(yàn)風(fēng)險項(xiàng)，正則化3 是正則項(xiàng)，正則化4 是正則化參數(shù)。

簡單的模型擬合程度差(偏差大)，泛化能力強(qiáng)(方差小);復(fù)雜的模型擬合程度好(偏差小)，泛化能力弱(方差大)。

正則化5

故選用合適的模型復(fù)雜度，使得泛化誤差最小。

正則化的方法

正則化也可以稱為規(guī)則化，在數(shù)學(xué)領(lǐng)域常稱為范數(shù)，常用的有L1范數(shù)和L2范數(shù)。P范數(shù)的數(shù)學(xué)公式如下：

正則化6

1) L0范數(shù)表示向量中非零元素的個數(shù)

2) L1范數(shù)表示向量元素的絕對值之和

正則化7

3) L2范數(shù)表示向量元素的平方和再開方

正則化8

4) 范數(shù)表示所有向量元素絕對值中的最大值

正則化9

5) 范數(shù)表示所有向量元素絕對值中的最小值

正則化10

其中L1正則和L2正則是常用的正則化方法，L1正則可以產(chǎn)生稀疏權(quán)值矩陣，即產(chǎn)生一個稀疏模型，可以用于特征選擇，同時可以防止過擬合。L2正則可以防止模型過擬合。L0范數(shù)一定可以保證得到稀疏模型，但L0范數(shù)的求解是NP難問題，實(shí)際中一般采用L1范數(shù)代替L0范數(shù)得到稀疏解，可以簡單認(rèn)為L1范數(shù)是L0范數(shù)的凸近似。

從圖形角度分析L1正則與L2正則

從圖形角度分析L1正則與L2正則，為簡化分析，考慮只有兩個權(quán)值向量w1和w2。

正則化11

多彩的等值線代表經(jīng)驗(yàn)損失函數(shù)解的空間，菱形線代表L1范數(shù)空間，當(dāng)二者相交時，代表了一個結(jié)構(gòu)損失函數(shù)的解，L1范數(shù)與經(jīng)驗(yàn)損失函數(shù)的交點(diǎn)一般在坐標(biāo)軸上，從而可以使得某些w=0，進(jìn)而得到稀疏解。

正則化12