<acronym id="s8ci2"><small id="s8ci2"></small></acronym>

<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>

<acronym id="s8ci2"></acronym>

<acronym id="s8ci2"><center id="s8ci2"></center></acronym>

搜索歷史

清空

搜索熱詞

0

聊天消息
系統消息
評論與回復

查看更多

查看更多

查看更多

登錄后你可以

下載海量資料
學習在線課程
觀看技術視頻
寫文章/發帖/加入社區

創作中心

發布

創作活動

完善資料讓更多小伙伴認識你，還能領取20積分哦，立即完善>

3天內不再提示

深度學習中多種優化算法

本文旨在優化一維函數，實際上模型參數有數百萬維以上，差距很大，因此本文最好作為輔助法的理解，而非對算法優劣的判斷依據。在深度學習中，有很多種優化算法，這些算法需要在極高維度（通常參數有數百萬個以上）也即數百萬維的空間進行梯度下降，從最開始的初始點開始，尋找最優化的參數，通常這一過程可能會遇到多種的情況，諸如： 1、提前遇到局部最小值從而卡住，再也找不到全局最小值了。 2、遇到極為平坦的地方：“平原”，在這里梯度極小，經過多次迭代也無法離開。同理，鞍點也是一樣的，在鞍點處，各方向的梯度極小，盡管沿著某一個方向稍微走一下就能離開。 3、“懸崖”，某個方向上參數的梯度可能突然變得奇大無比，在這個地方，梯度可能會造成難以預估的后果，可能讓已經收斂的參數突然跑到極遠地方去。為了可視化&更好的理解這些優化算法，我首先拼出了一個很變態的一維函數：其導數具有很簡單的形式：具體長得像：

具有懸崖和大量的局部最小值，足以模擬較為復雜的優化情況了。
算法1：純粹的梯度下降法該算法很簡單，表述如下：

首先給出學習率lr，初始x while True： x = x - lr*df/dx 根據學習率的不同，可以看到不同的效果。學習率過小，卡在局部極小值，學習率過大，壓根不收斂。

梯度下降法

算法2：梯度下降法+動量算法在純粹的梯度下降法之上，外加了梯度，從而記錄下了歷史的梯度情況，從而減輕了卡在局部最小值的危險，在梯度=0的地方仍然會有一定的v剩余，從而在最小值附近搖擺。

首先給出學習率lr，動量參數m 初始速度v=0,初始x while True： v = m * v - lr * df/dx x += v 下面可以看圖：

梯度下降+動量， lr=0.05

梯度下降+動量， lr=0.01

梯度下降+動量， lr=0.002 從中我們可以看出： 1、lr越小越穩定，太大了很難收斂到最小值上，但是太小的話收斂就太慢了。 2、動量參數不能太小，0.9以上表現比較好，但是又不能太大，太大了無法停留在最小值處。

算法3：AdaGrad算法 AdaGrad算法的思想是累計歷史上出現過的梯度（平方），用積累的梯度平方的總和的平方根，去逐元素地縮小現在的梯度。某種意義上是在自行縮小學習率，學習率的縮小與過去出現過的梯度有關。缺點是：剛開始參數的梯度一般很大，但是算法在一開始就強力地縮小了梯度的大小，也稱學習率的過早過量減少。算法描述：

給出學習率lr，delta=1e-7累計梯度r=0，初始xwhile True： g = df/dx r = r + g*g x = x - lr / (delta+ sqrt(r)) * g

效果并不是很好......

算法4：RMSProp AdaGrad算法在前期可能會有很大的梯度，自始至終都保留了下來，這會使得后期的學習率過小。RMSProp在這個基礎之上，加入了平方梯度的衰減項，只能記錄最近一段時間的梯度，在找到碗狀區域時能夠快速收斂。算法描述：

給出學習率lr，delta=1e-6，衰減速率p累計梯度r=0，初始xwhile True： g = df/dx r = p*r + （1-p）*g*g x = x - lr / (delta+ sqrt(r)) * g

RMSProp,p=0.99

RMSProp,p=0.9

RMSProp,p=0.8 衰減速率情況復雜，建議自行調參.......

算法5：Adam算法 Adam算法和之前類似，也是自適應減少學習率的算法，不同的是它更新了一階矩和二階矩，用一階矩有點像有動量的梯度下降，而用二階矩來降低學習率。此外還使用了類似于s = s / (1-p1^t)這樣的公式，這樣的公式在t較為小的時候會成倍增加s，從而讓梯度更大，參數跑的更快，迅速接近期望點。而后續t比較大的時候，s = s / (1-p1^t)基本等效于s=s，沒什么用。算法如下：

給出學習率lr，delta=1e-8，衰減速率p1=0.9，p2=0.999 累計梯度r=0，初始x ,一階矩s=0，二階矩r=0時間t = 0while True： t += 1 g = df/dx s = p1*s + (1-p1) *g r = p2*r +（1-p2）*g*g s = s / (1-p1^t) r = r / (1-p2^t) x = x - lr / (delta+ sqrt(r)) * s

Adam算法，鬼一樣的表現是的，你沒有看錯，這玩意壓根不收斂......表現極差。在算法中仔細研究后才發現，是在t很小的前幾步的時候，p2=0.999太大了，導致r = r / (1-p2^t) 中，1-p2^t接近0，r迅速爆炸，百步之內到了inf。后來修改p2=0.9后效果就好得多了。

Adam算法，神級表現最后還是Adam效果最好了：)，盡管學習率還是需要相當的調參。

算法6：牛頓法牛頓法是二階近似方法的一種，其原理類似于將某函數展開到二次方（二次型）項：如果幸運的話，這個展開式是一個開口向上的曲面，一步就走到這個曲面的最低點：

初始x while True： g = df(x) # 一階導數 gg = ddf(x) # 二階導數 x = x - g/gg # 走到曲面的最低點

可憐的牛頓法,靜態圖圖片如上，看了真可憐........其實牛頓法要求的是H矩陣正定（一維情況下是二階導數大于零），在多維中，這樣的情況難以滿足，大量出現的極小值，懸崖，鞍點都會造成影響，導致無法順利進行下去，為了更好地進行牛頓法，我們需要正則化它。

算法7：牛頓法+正則化牛頓法加上正則化可以避免卡在極小值處，其方法也很簡單：更新公式改成如下即可。一維的算法如下：

初始x ，正則化強度alphawhile True： g = df(x) # 一階導數 gg = ddf(x) # 二階導數 x = x - g/（gg+alpha） # 走到曲面的最低點效果圖：

牛頓法+正則化看了真可憐.........二次方法真心在非凸情況很糟糕。此外算法涉及H矩陣的逆，這需要O（n^3）的計算量，非深度學習可用。參考文獻 [1]Ian Goodfellow，深度學習Deep Learning，人民郵電出版社,170-190 代碼

#coding:utf-8from __future__ import print_functionimport numpy as npimport matplotlib.pyplot as plt def f(x): return (0.15*x)**2 + np.cos(x) + np.sin(3*x)/3 + np.cos(5*x)/5 + np.sin(7*x)/7 def df(x): return (9/200)*x - np.sin(x) -np.sin(5*x) + np.cos(3*x) + np.cos(7*x) points_x = np.linspace(-20, 20, 1000)points_y = f(points_x) # 純粹的梯度下降法,GDfor i in range(10): # 繪制原來的函數 plt.plot(points_x, points_y, c="b", alpha=0.5, linestyle="-") # 算法開始 lr = pow(2,-i)*16 x = -20.0 GD_x, GD_y = [], [] for it in range(1000): GD_x.append(x), GD_y.append(f(x)) dx = df(x) x = x - lr * dx plt.xlim(-20, 20) plt.ylim(-2, 10) plt.plot(GD_x, GD_y, c="r", linestyle="-") plt.title("Gradient descent,lr=%f"%(lr)) plt.savefig("Gradient descent,lr=%f"%(lr) + ".png") plt.clf() # 動量 + 梯度下降法for i in range(10): # 繪制原來的函數 plt.plot(points_x, points_y, c="b", alpha=0.5, linestyle="-") # 算法開始 lr = 0.002 m = 1 - pow(0.5,i) x = -20 v = 1.0 GDM_x, GDM_y = [], [] for it in range(1000): GDM_x.append(x), GDM_y.append(f(x)) v = m * v - lr * df(x) x = x + v plt.xlim(-20, 20) plt.ylim(-2, 10) plt.plot(GDM_x, GDM_y, c="r", linestyle="-") plt.scatter(GDM_x[-1],GDM_y[-1],90,marker = "x",color="g") plt.title("Gradient descent + momentum,lr=%f,m=%f"%(lr,m)) plt.savefig("Gradient descent + momentum,lr=%f,m=%f"%(lr,m) + ".png") plt.clf() # AdaGradfor i in range(15): # 繪制原來的函數 plt.plot(points_x, points_y, c="b", alpha=0.5, linestyle="-") # 算法開始 lr = pow(1.5,-i)*32 delta = 1e-7 x = -20 r = 0 AdaGrad_x, AdaGrad_y = [], [] for it in range(1000): AdaGrad_x.append(x), AdaGrad_y.append(f(x)) g = df(x) r = r + g*g # 積累平方梯度 x = x - lr /(delta + np.sqrt(r)) * g plt.xlim(-20, 20) plt.ylim(-2, 10) plt.plot(AdaGrad_x, AdaGrad_y, c="r", linestyle="-") plt.scatter(AdaGrad_x[-1],AdaGrad_y[-1],90,marker = "x",color="g") plt.title("AdaGrad,lr=%f"%(lr)) plt.savefig("AdaGrad,lr=%f"%(lr) + ".png") plt.clf() # RMSPropfor i in range(15): # 繪制原來的函數 plt.plot(points_x, points_y, c="b", alpha=0.5, linestyle="-") # 算法開始 lr = pow(1.5,-i)*32 delta = 1e-6 rou = 0.8 x = -20 r = 0 RMSProp_x, RMSProp_y = [], [] for it in range(1000): RMSProp_x.append(x), RMSProp_y.append(f(x)) g = df(x) r = rou * r + (1-rou)*g*g # 積累平方梯度 x = x - lr /(delta + np.sqrt(r)) * g plt.xlim(-20, 20) plt.ylim(-2, 10) plt.plot(RMSProp_x, RMSProp_y, c="r", linestyle="-") plt.scatter(RMSProp_x[-1],RMSProp_y[-1],90,marker = "x",color="g") plt.title("RMSProp,lr=%f,rou=%f"%(lr,rou)) plt.savefig("RMSProp,lr=%f,rou=%f"%(lr,rou) + ".png") plt.clf() # Adamfor i in range(48): # 繪制原來的函數 plt.plot(points_x, points_y, c="b", alpha=0.5, linestyle="-") # 算法開始 lr = pow(1.2,-i)*2 rou1,rou2 = 0.9,0.9 # 原來的算法中rou2=0.999，但是效果很差 delta = 1e-8 x = -20 s,r = 0,0 t = 0 Adam_x, Adam_y = [], [] for it in range(1000): Adam_x.append(x), Adam_y.append(f(x)) t += 1 g = df(x) s = rou1 * s + (1 - rou1)*g r = rou2 * r + (1 - rou2)*g*g # 積累平方梯度 s = s/(1-pow(rou1,t)) r = r/(1-pow(rou2,t)) x = x - lr /(delta + np.sqrt(r)) * s plt.xlim(-20, 20) plt.ylim(-2, 10) plt.plot(Adam_x, Adam_y, c="r", linestyle="-") plt.scatter(Adam_x[-1],Adam_y[-1],90,marker = "x",color="g") plt.title("Adam,lr=%f"%(lr)) plt.savefig("Adam,lr=%f"%(lr) + ".png") plt.clf() # 牛頓法for i in range(72): # 繪制原來的函數 plt.plot(points_x, points_y, c="b", alpha=0.5, linestyle="-") # 算法開始 alpha= pow(1.2,-i)*20 x = -20.0 Newton_x, Newton_y = [], [] for it in range(1000): Newton_x.append(x), Newton_y.append(f(x)) g = df(x) gg = ddf(x) x = x - g/(gg+alpha) plt.xlim(-20, 20) plt.ylim(-2, 10) plt.plot(Newton_x, Newton_y, c="r", linestyle="-") plt.scatter(Newton_x[-1],Newton_y[-1],90,marker = "x",color="g") plt.title("Newton,alpha=%f"%(alpha)) plt.savefig("Newton,alpha=%f"%(alpha) + ".png") plt.clf()

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

算法

算法

+關注

關注
23

文章
4464

瀏覽量
90920
可視化

可視化

+關注

關注
1

文章
1043

瀏覽量
20580
深度學習

深度學習

+關注

關注
73

文章
5248

瀏覽量
120000

原文標題：深度學習中7種最優化算法的可視化與理解

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關注！文章轉載請注明出處。

評論

相關推薦

Nanopi深度學習之路(1)深度學習框架分析

學習，也就是現在最流行的深度學習領域，關注論壇的朋友應該看到了，開發板試用活動中有【NanoPi K1 Plus試用】的申請，介紹中NanopiK1plus的高大上優點之一就是“可運行

發表于 06-04 22:32

什么是深度學習？使用FPGA進行深度學習的好處？

什么是深度學習為了解釋深度學習，有必要了解神經網絡。神經網絡是一種模擬人腦的神經元和神經網絡的計算模型。作為具體示例，讓我們考慮一個輸入圖像并識別圖像

發表于 02-17 16:56

深度模型中的優化與學習課件下載

深度模型中的優化與學習課件下載

發表于 04-07 16:21 ?3次下載

<b class='flag-5'>深度</b>模型中的<b class='flag-5'>優化</b>與<b class='flag-5'>學習</b>課件下載

移植深度學習算法模型到海思AI芯片

本文大致介紹將深度學習算法模型移植到海思AI芯片的總體流程和一些需要注意的細節。海思芯片移植深度學習算法

發表于 01-26 19:42 ?11次下載

機器學習和深度學習算法流程

但是無可否認的是深度學習實在太好用啦！極大地簡化了傳統機器學習的整體算法分析和學習流程，更重要的是在一些通用的領域任務刷新了傳統機器

發表于 04-26 15:07 ?4223次閱讀

深度學習算法進行優化的處理器——NPU

NPU（Neural-network Processing Unit，嵌入式神經網絡處理器）是針對深度學習*算法進行優化的處理器。它能像人類神經網絡一樣快速、高效地處理大量數據，因此它

發表于 10-17 10:53 ?1937次閱讀

什么是深度學習中優化算法

先大致講一下什么是深度學習中優化算法吧，我們可以把模型比作函數，一種很復雜的函數：h(f(g(k(x))))，函數有參數，這些參數是未知的，深度

發表于 02-13 15:31 ?1175次閱讀

PyTorch教程12.1之優化和深度學習

電子發燒友網站提供《PyTorch教程12.1之優化和深度學習.pdf》資料免費下載

發表于 06-05 15:08 ?0次下載

PyTorch教程-12.1. 優化和深度學習

12.1. 優化和深度學習? Colab [火炬]在 Colab 中打開筆記本 Colab [mxnet] Open the notebook in Colab Colab [jax

發表于 06-05 15:44 ?370次閱讀

從淺層到深層神經網絡：概覽深度學習優化算法

優化算法一直以來是機器學習能根據數據學到知識的核心技術。而好的優化算法可以大大提高學習速度，加快

發表于 06-15 11:20 ?455次閱讀

深度學習算法簡介深度學習算法是什么深度學習算法有哪些

深度學習算法簡介深度學習算法是什么?深度

發表于 08-17 16:02 ?7129次閱讀

深度學習算法工程師是做什么

深度學習算法工程師是做什么深度學習算法工程師是一種高級技術人才，是數據科學中創新的推動者，也是

發表于 08-17 16:03 ?837次閱讀

什么是深度學習算法？深度學習算法的應用

什么是深度學習算法？深度學習算法的應用深度

發表于 08-17 16:03 ?1542次閱讀

深度學習算法庫框架學習

深度學習算法庫框架的相關知識點以及它們之間的比較。 1. Tensorflow Tensorflow是Google家的深度學習框架，已經成為

發表于 08-17 16:11 ?455次閱讀

深度學習框架和深度學習算法教程

深度學習框架和深度學習算法教程深度學習是機器

發表于 08-17 16:11 ?749次閱讀

深度學習自然語言處理
專欄

0 文章 0 閱讀 0 粉絲 0 點贊

關注個人主頁

Hot 一個給NLP領域帶來革新的預訓練語言大模型Bert
Hot 推薦一些翻譯英文文獻比較準確的軟件

New 什么是RAG，RAG學習和實踐經驗
New MOE與MOT：提升LLM效能的關鍵策略比較

精選推薦
更多

文章

資料

帖子

超精密金屬箔技術貼片電阻

Resistor.Today
7小時前

330 閱讀

VL53L8CX TOF開發(2)----設置自主模式

嵌入式單片機MCU開發
10小時前

225 閱讀

三軸加速度計LIS2DUX12開發(3)----計步器

嵌入式單片機MCU開發
10小時前

224 閱讀

氣壓計LPS22HB開發(1)----輪詢獲取氣壓計數據

嵌入式單片機MCU開發
10小時前

222 閱讀

三軸加速度計LIS2DUX12開發(2)----靜態校準

嵌入式單片機MCU開發
10小時前

146 閱讀

電力電子設備設計手冊免費下載

yezi888
18.5 MB

免費

708下載

電子連接器開發方案及電路圖集錦

盧國藝
3969KB

3積分

98下載

無線語音輸液監測系統設計工程源文件

KK
0.18 MB

免費

8下載

Rtail瀏覽器終端輸出

張敏
0.07 MB

免費

0下載

Gravity Kubernetes打包和管理工具

張虎豹
42.71 MB

免費

0下載

盤古1K開發板主芯片PGC1KG-LPG100介紹

zwjiang
1天前

171 閱讀

【書籍評測活動NO.33】做了50年軟件開發，總結出60條經驗教訓，每一條都太扎心！

ElecFans小喇叭
1天前

235 閱讀

鴻蒙原生應用元服務開發WEB-緩存與存儲管理

李洋水蛟龍
1天前

283 閱讀

在全志H616核桃派開發板上配置I2C引腳并讀取溫度數據

文小二
1天前

285 閱讀

基于青稞 RISC-V2A 內核設計的工業級通用微控制器CH32V003

zwjiang
1天前

242 閱讀

推薦專欄
更多

華秋（原“華強聚豐”）：

電子發燒友

華秋開發

華秋電路(原"華強PCB")

華秋商城(原"華強芯城")

華秋智造

My ElecFans

APP
網站地圖

設計技術

可編程邏輯

電源/新能源

MEMS/傳感技術

測量儀表

嵌入式技術

制造/封裝

模擬技術

RF/無線

接口/總線/驅動

處理器/DSP

EDA/IC設計

存儲技術

光電顯示

EMC/EMI設計

連接器

行業應用

LEDs

汽車電子

音視頻及家電

通信網絡

醫療電子

人工智能

虛擬現實

可穿戴設備

機器人

安全設備/系統

軍用/航空電子

移動通信

工業控制

便攜設備

觸控感測

物聯網

智能電網

區塊鏈

新科技

特色內容

專欄推薦

學院

設計資源

設計技術

電子百科

電子視頻

元器件知識

工具箱

VIP會員

最新技術文章

社區

小組

論壇

問答

評測試用

企業服務

產品

資料

文章

方案

企業

供應鏈服務

硬件開發

華秋電路

華秋商城

華秋智造

nextPCB

BOM配單

媒體服務

網站廣告

在線研討會

活動策劃

新聞發布

新品發布

小測驗

設計大賽

華秋

關于我們

投資關系

新聞動態

加入我們

聯系我們

舉報投訴

社交網絡

微博

移動端

發燒友APP

硬聲APP

WAP

聯系我們

廣告合作

王婉珠：wangwanzhu@elecfans.com

內容合作

黃晶晶：huangjingjing@elecfans.com

內容合作（海外）

張迎輝：mikezhang@elecfans.com

供應鏈服務 PCB/IC/PCBA

江良華：lanhu@huaqiu.com

投資合作

曾海銀：zenghaiyin@huaqiu.com

社區合作

劉勇：liuyong@huaqiu.com

關注我們的微信

下載發燒友APP

電子發燒友觀察

電子工程師社區

1-32層PCB打樣·中小批量

元器件現貨·全球代購·SmartBOM

SMT貼片·PCBA加工

PCB Manufacturer

華秋簡介

企業動態

聯系我們

企業文化

企業宣傳片

加入我們

版權所有 ? 湖南華秋數字科技有限公司
電子發燒友 （電路圖） 湘公網安備43011202000918 電信與信息服務業務經營許可證：合字B2-20210191 工商網監湘ICP備 2023018690 號

亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看