4.2 學習率
使用驗證集是獲得合適LR(Learning Rate)的有效手段 。開始訓練時,LR通常設為0.1 。在實踐中,當你觀察到在驗證集上的loss或者準確率不在變化時,將LR除以2或5后繼續跑 。
4.3 在預訓練的模型上微調
很多state-of-the-arts deep networks的模型被開源出來,這些預訓練的模型泛化能力(generalization abilities)很強,因此可以在這些模型的基礎上根據自己的任務微調 。微調涉及兩個重要的因素:新數據集的大小和兩個數據集的相似度 。網絡頂層特征包含更多dataset-specific特征 。
5. 激活函數
激活函數用于在網絡中引入非線性 。sigmoid 與 tanh 曾經很流行,但現在很少用于視覺模型了,主要原因在于當輸入的絕對值較大時,其梯度(導數)接近于零,這時參數幾乎不再更新,梯度的反向傳播過程將被中斷,出現梯度消散的現象 。
激活函數示意圖,圖片來自斯坦福 Stanford CS231n
Sigmoid 激活函數
tanh 激活函數
ReLU 激活函數
ReLU 優點:
實現起來非常簡單,加速了計算過程 。
加速收斂,沒有飽和問題,大大緩解了梯度消散的現象 。
ReLU 缺點:
就是它可能會永遠“死”掉,假如有一組二維數據 X(x1, x2)分布在 x1:[0,1], x2:[0,1] 的區域內,有一組參數 W(w1, w2)對 X 做線性變換,并將結果輸入到ReLU 。
F = w1*x1 + w2*x2
F = w1*x1 + w2*x2
如果 w1 = w2 = -1,那么無論 X 如何取值,F 必然小于等于零 。那么 ReLU 函數對 F 的導數將永遠為零 。這個 ReLU 節點將永遠不參與整個模型的學習過程 。
為了解決ReLU 在負區間的導數為零的問題,人們發明了 Leaky ReLU, Parametric ReLU, Randomized ReLU 等變體,他們的中心思想都是為ReLU 函數在負區間賦予一定的斜率,從而讓其導數不為零(這里設斜率為 alpha) 。
Leaky ReLU 就是直接給 alpha 指定一個固定的值,整個模型都用這個斜率:
Parametric ReLU 將 alpha 作為一個參數,通過從數據中學習獲取它的較優值 。
Randomized ReLU 的alpha 是在規定的區間內隨機選取的,在測試階段是定值 。
有學者將當前較優的兩類CNN網絡結合不同的激活函數在CIFAR-10,CIFAR-100和NDSB數據集上做實驗,評價四種激活函數的優劣 。實驗結果表明Leaky ReLU取較大的alpha準確率更好 。Parametric ReLU很容易在小數據集上過擬合(訓練集上錯誤率較低,測試集上不理想),但依然比ReLU好 。RReLU效果較好,實驗表明它可以克服模型過擬合,這可能由于alpha選擇的隨機性 。在實踐中, Parametric ReLU 和 Randomized ReLU 都是可取的 。

文章插圖
6. 正則化(Regularizations)
以下是幾種常用的方通過控制模型的容量來阻止 神經網絡 的過擬合(Overfitting) 。
6.1 L2正則化
L2正則化也許是較常用的正則化的形式 。它可以通過將模型中所有的參數的平方級作為懲罰項加入到目標函數(objective)中來實現 。也就是說,對網絡中的每一個權重w ,我們將其項 12λw2 加入到目標函數中,其中λ 是正則化的強度參數 。在懲罰項公式的前面加上12是很常見的,這樣做的原因是因為優化函數12λw2 求導的時候不至于前面產生一個常數項因子2,而只是λw 這樣簡單的形式 。對L2正則化的直觀的解釋是,L2正則化對尖峰向量的懲罰很強,并且傾向于分散權重的向量 。
6.2 L1正則化
L1正則化是另一個相關的常見的正則化方式 。這里,對于網絡中的每一個權重w ,我們都會加上一個項λ|w| 到目標函數中 。L1正則化有一個非常有趣的屬性,那就是它會使得權重向量w在優化期間變得稀疏(例如非常接近零向量) 。帶有L1正則化項結尾的神經網絡僅僅使用它的較重要的并且接近常量的噪聲的輸入的一個稀疏的子集 。相比之下,較終的權重向量從L2正則化通常是分散的、小數字 。在實踐中,如果你不關心明確的特征選擇,可以預計L2正則化在L1的性能優越 。
- 如何使用mac 如何使用mac地址連接wifi
- 如何插入多行 如何插入多行單元格
- 如何感冒 如何感冒較快的速度在夏天
- 如何職業規劃 大學生如何職業規劃
- 如何瘦下來 臉部如何瘦下來
- ipad如何 ipad如何投屏到電視上去
- 淮陰侯韓信被殺死后,劉邦是如何對待他的后人的?
- 如何與父母相處 高中生如何與父母相處
- qq如何恢復好友 如何恢復好友教程
- 微商如何引流 微商如何引流呢
