<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

深度學習的基礎理論,深度學習為何work又為何不work?

mK5P_AItists ? 來源:lq ? 2019-02-15 16:47 ? 次閱讀

耶路撒冷號稱三教圣地, 而它的牛逼之處絕不僅在于宗教, 如果你深入了解, 你會發現它的科學,尤其是理論創新也同樣牛逼, 尤其是在腦科學和人工智能方向。 當然神族人不是特別關心最接地氣的問題, 而是更關注形而上的理論框架。 耶路撒冷的腦與深度學習會就是這樣一個杰出的體現。

深度學習有關的核心會議, 從NIPS到ICLR 我們都不會陌生, 這些會議對深度學習在人工智能的應用極為相關。 耶路撒冷的這個會議與之不同的是, 它非常關注深度學習與腦的交叉領域, 關注它們背后共同的指導理論, 在這點上也算是獨樹一幟。因為在大家忙于做應用主題的時候, 其實更需要有一些人其思考背后的理論,即使這樣的思考在一個時間里不會馬上促進應用, 但是在更長遠的時間里, 卻可能把應用推向一個遠高于現在的平衡點。就像人類在了解牛頓定律以前就能夠建造各種各樣的橋梁。有人可能會說我們不需要牛頓定律, 而實際上他們沒有看到我們有了牛頓定律后所造的橋根本不是一種橋, 不是石拱橋,或者獨木橋,而是跨海大橋。 好了,我們直接來說正事, 來總結下會議里一些有趣的內容。

腦與深度學習的關系本來就是一個高度雙向的主題, 這個會議圍繞以下幾個核心問題:

1 深度學習的基礎理論, 深度學習為何work又為何不work?

2 如何從心理學和認知科學的角度歸納當下深度學習的不足?

3 如何用深度學習促進對人腦的理解,包含感知(視覺為主), 認知與記憶。 反過來如何促進AI?

會議最大的一個板塊, 在于對深度學習理論的剖析, 這個板塊可謂大牛云集, 從信息瓶頸理論的創始人Tshiby 到 MIT的 Tomaso Poggio, 從牛津的Andrew Saxe到MIT的Daniel Lee, 都表達了自己的核心觀點, 問題圍繞的一個主線就是深度學習的泛化能力 。

我們把這個問題分成兩個子問題:

深度學習的泛化能力為什么那么好?大家知道深度學習理論的第一個謎團就是一個大的網絡動輒百萬參數, 而能夠泛化的如此之好, 這是非常不符合貝卡母剃刀原理的(解決同樣的問題簡單的模型更好),更加作妖的是, 這種泛化能力往往隨著參數的繼續增加而增強。 這到底是為什么? 幾個不同的流派從不同的角度回答了這個問題。

1, 信息流派:從信息論的角度分析深度學習, Tshiby是該流派的集大成者,也是此次的發言者。 他的核心觀點是從把深度網絡理解為一個信息管道, 數據, 就是入口的原油 ,里面富集了我們可以預測未來的信息, 那么這個深度網絡, 就是首先要把輸入數據里那些相關性最高的成分給把握住, 然后再一步步的把我們與預測信息無關的東西給剔除, 最后得到一個與預測對象而非輸入數據極為相關的表征。 深度學習的泛化能力, 在于層數越深, 這種對無關信息的抽離的效率就越高, 因為隨機梯度下降的訓練過程, 每層的網絡權重都在做一個隨機游走, 越高的層 ,就越容易忘記那些與預測無關的特征, 層數越多, 這個過程其實就越快,我們能夠在控制梯度消失的同時擁有更多的層, 會使我們越快的發現那個與預測相關的不變的特征本質。

信息瓶頸理論, 深度網絡作為信息抽取的管道。

2, 幾何流派:這是Daniel D Lee 的talk 。從Manifold learning的角度理解 , 深度學習的“類" 對應一個在高維空間里得到一個低維流形,。這一個高, 一個低, 就是深度能力泛化能力的源泉。 這個觀點的核心起源可以追溯到SVM的max margin solution。 在SVM的世界, 首先我們可以用增加維度的方法把兩堆在低維世界混合分不開的點投影到高維空間, 它們就清楚的分割開來。 然后我們用最大間隔來做限制,讓這兩堆點分的盡可能開, 就可以避免過擬合。

這個做法的本質首先用維度增加增強模型的容量, 然后在模型有了更高容量后我們當然也更容易過擬合。但是我們可以用最大間隔盡可能把數據”打“到一起, 事實上讓每個類數據分布的維度盡可能低,這就可以避免過擬合。在深度學習的世界里, 我們每層網絡都把之前的數據映射到一個新的流型里, 最簡單的假設就是一個球體。比如貓和狗的分類, 就是兩個球體, 一個貓星, 一個狗星。 在一個同樣的高維空間里, 這兩個球的維度越小, 半徑越小, 就越容易把它們分開,而且可以分的類越多。 隨著深度網絡的層數變深, 這個趨勢恰恰是每個球的維度越低,半徑越小。 如果不同類型的圖像對應不同的球,層數越深, 就越容易給它們分開。這個觀點的內在事實上和Tshiby的信息瓶頸有異曲同工處, 大家體會下, 那個小球的維度越低是不是在抓取數據里的不變性。

幾何學派, 貓星和狗星的分離

幾何流派, 高維空間的低維流型隨著層數變深的變化

3, 動力學流派 :高維空間非線性優化的本質是這種優化隨著維度增長效率增加。 這是牛津那位仁兄Andrew Saxe的talk 。 牛津例來是深度學習的陣地, 理論當然當仁不讓。 這個talk從非線性優化的角度揭示了深度學習泛化的本質。 網絡訓練的過程, 事實上是高維空間上一個尋找動力學定點(全局最優)的過程, 每時每刻,梯度下降的方向是由當下x和y的相關性和x和x的自相關性決定的。 當優化進行到定點(最優點)附近時候, 這個相關性信息開始減少, 網絡開始對數據里的噪聲敏感, 因此我們需要早停法來減少過擬合。 但是, 如果我們的網絡足夠大,甚至這個早停都不必要我們無需提防這種擬合噪聲帶來的過擬合。 取得這個結論需要非常復雜的線性代數, 同學們可以參考論文High-dimensional dynamics of generalization error in neural network

會議的另一個部分talk,圍繞深度學習的泛化能力為何如此之差, 這不是互相矛盾嗎?此泛化非彼泛化也。

1, 先天的偏見與推理的無知

先驗誤差導致的失靈: 希伯來大學的Shai Shalev 深度網絡可以戰勝圍棋這樣牛逼的游戲, 然而你想不想的到, 它可能在學習乘法表的時候都會出錯? 這個talk講解了讓深度網絡學習并泛化一個乘法表, 然后看在測試集上它是怎么表現得。 非常有趣的是 ,雖然深度網絡在訓練集上表現完美, 在測試集上出現了讓人恥笑的系統誤差, 說明它還真的不如一個小孩子的學習能力。 這突出了反應了深度統計學習依然無法繞過統計學習固有的缺陷, 就是缺少真正的推理能力。 而這種系統誤差背后的原因, 是網絡內在的inductive bias, 這就好像網絡自己就帶著某種先天的偏見, 我們卻對它茫然無知。

深度學習學乘法出現的難以忍受的系統誤差

另一個驚人的talk來自于Montreal University的Anron Courville。 他圍繞一個深度學習的當紅應用領域VAQ -視覺看圖回答問題展開。 這個框架的核心在于讓深度網絡看圖, 回答一個有關圖像的問題, 比如圖像里有幾把桌子幾把椅子這種。 我們關鍵考察那些需要一點推理能力才能回答的問題, 比如回答完了圖像里有幾個桌子,有什么顏色的椅子后, 問它圖像里有什么顏色的桌子。 如果這個網絡真的有泛化能力, 它就會回答這個問題。 事實上是我們所設計的超復雜的由CNN和LSTM組成的巨型網絡在這個問題面前舉步維艱。 它可以找到3張桌子或5張桌子, 但是很難把什么顏色的椅子里學到的東西遷移到桌子里正確回答出灰色的桌子。之后我們從工程學的原理設計了一個全新的結構把這種推理能力人為的遷移進去, 會使問題稍稍好轉。

視覺看圖回答問題

2, 你不知道的CNN那些缺陷:

1 CNN真是平移不變的嗎?Yair Weiss 希伯來大學計算機系的Dean給大家講解了CNN網絡最大的根據-平移不變性是錯誤的。 我們知道CNN網絡建立的基礎是它模仿生物感受野的原理,建立了一個共享權值的網絡系統 ,這樣不同位置的圖像部分, 會共享同一種特征偏好, 你的鼻子出現在圖像的頂端或下面都是鼻子。

而Yair Weiss卻想了一個方法, 證實了CNN, 哪怕你把圖像向上移動了一個像素, 都可能造成它整個看法(分類)的變化。 這和那個在動物臉上加噪聲看成其它動物的實驗類似, 證明了CNN的脆弱性,同時動搖了平移不變的基礎。 一開始我也覺得是天方夜譚, 但是看了他的整個試驗后開始稍稍信服。 事實上它證實了對于最早期的CNN-neocognitron , 平移不變的確是成立的。 但是對于”現代“CNN, Alexnet, VGG, ResNet, 這個性質卻不再成立。 因為現代CNN在整個網絡結構里,加入了大量的降采樣,比如池化, 這些在空間上離散的降采樣操作, 導致了一種驚人的脆弱性,就是平移不變的喪失。 當然, 在實際應用中, 它不夠成那么大的問題, 因為你永遠可以通過數據增強的方法, 來強化網絡里的這些不變性。

CNN居然不是平移不變的

2,CNN對細節的敏感與對輪廓的忽視。我們本來相信CNN對不同尺度的圖像特征,從細節紋理到圖像輪廓, 都會同樣器重并做出判斷。 而事實上, 來自德國Tubingen的Matthias Bethe, 給我們展示了CNN事實很可能把自己90%的判斷依據,放在了細節和紋理上。 也就是說, 它也許可能精確的識別狗和貓,但是它或許真正基于的是狗毛和貓毛的區別做出的判斷。 如果你聯想一下那么在圖像里加入噪聲, CNN就可以把熊貓看成長頸鹿的實驗, 就覺得這個想法還挺合理的。 它通過它的實驗驗證了它的這個理論。也就是用那套圖像特征遷移的網絡, 把一個個圖片的紋理抽取, 或者更換掉, 雖然還是貓或者狗, 里面的紋理變了, 那個CNN就徹底傻掉了。 同時它還對比了人的認知測試,看到了CNN的巨大差距。

CNN難道只對細節感興趣?

以上這些研究都暴露了CNN和人腦的區別。 即使是圖像識別這個目前AI做的最好的領域, 這個”人工智能“ 也顯得太”人工“ 了, 而與”智能“差距甚遠。當然Matthias通過強化對輪廓的訓練識別, 可以讓它變得更像人一點, 可以識別一定的整體特征, 然而這個時候對總體數據集的識別度會變得更差。到這里,可以說是從深度學習多么好,到了深度學習多么差, 我們畢竟還沒有掌握智能最核心的東西,包括符號推理這些, 也沒有具備真正的”泛化能力“ , 此處之后的幾個talk,就是圍繞這個智能的真正核心,探討人腦有多牛逼了。

腦科學與心理學角度的智能:

1, 有關表征學習:

來自Princeton的Yael Niv講解了智能科學的核心-表征學習的幾個關鍵問題:首先什么是表征學習, 表征學習的本質概念是學習一個真實世界的神經表示。它可能是從真實世界抽離出來的一些核心特征, 或者我們說的對真實世界的抽象, 而這里面,卻可以幫助我們大大增強我們舉一反三的學習能力。 比如說你被蛇咬了, 下一次出現運動的細長生物你知道避開。 另一方面, 我們可以把任務根據當下情景在大腦中重構出來, 比如都是討價還價, 你碰到辣妹可能就沒有那么用力了,而是開始談笑風聲起來。我們可以把從相似的任務里學到的經驗整合, 或者同一個經驗里學到的東西和不同的新的任務結合。

這些都依賴于我們大腦中一套靈活的對不同任務和事物的表征系統。 這個系統我們可以管它叫任務表征系統。Yael 講了這個任務表征系統的一些基本特性, 比如說貝葉斯證據整合,證據如何互相關聯和啟發(召喚), 并把這些研究和大量心理學測試聯系在一起。 這種對任務的極強的遷移學習能力, 可以從一個任務中的經驗,關聯到一大堆任務的能力, 是得到更好的泛化能力, 甚至走向通用人工智能的一個關鍵步驟。 如何能夠通過學習得到這種可以遷移的任務表征也將成為重中之重。

表征學習-智能的核心

2, 有關人類記憶的研究:

來自哈佛醫學院的Anna Schapiro 講解了海馬記憶的兩個根本機制。 我們知道, 海馬是人和小鼠短期記憶, 情景記憶的載體。 在海馬體內有兩種不同的記憶模式。 一個事短期的快速的記憶, 每個記憶由相互獨立的神經元基團表達, 另一種是長期的穩固的, 某幾個記憶根據它們的共性共享大量的神經元基團。 在夜晚睡眠的時候, 我們白天記住的東西一部分會從短期轉向長期,另一部分則會被遺忘。 有意思的是 , 誰會被遺忘, 誰會被增強呢?

事實上Anna的研究表明人腦有一種非常靈活的機制, 可以把那些重要的記憶篩選出來,從短期區域走向長期區域, 而一些不重要的就像被水沖過一樣遺忘掉。 這個機理可以由海馬體的一個網絡動力模型理解。 同時這個研究還一定程度解開人類神經編碼的方式。 那些長期記住的事物為什么要共享神經元基團? 這是為了更有效的泛化, 一些類似的事物,或任務,通過共享神經元, 可以更好的提取共性, 預測和它們類似的東西。 反過來這也表明我們大腦內的記憶很多可能是錯誤的, 類似的東西之間會”相互污染“ ,這就是我們為什么經常會記混或記串。

兩種記憶承載的模式, 一種很獨立, 一種有重合。

海馬模型

最后一個模塊,就是圍繞人腦和深度學習的關系, 雖然我們的最終夢想是把讓人腦牛逼的算法遷移到AI系統, 但是第一步最容易實現的恰好是反過來, 如何借助深度學習這個崛起的工具更好的挖掘人腦的原理。

對于這塊,來自斯坦福的Daniel L K Yamins 提出了一個非??岬难芯靠蚣?, 就是用reverse eigeerneering(逆向工程, 正是我導師的領域) 研究人腦的感知系統(視覺或聽覺皮層)。 對人腦視覺或聽覺回路進行建模是我們一直的夢想 ,整個計算神經科學, 圍繞如何用數學建模來理解這些現象 ,建立實驗數據之間的聯系。然而建立這樣的模型異常復雜, 需要考慮的生物細節極為繁瑣。 現在, 深度學習的網絡給我們提供了極佳的工具去理解這些現象。我們的一個想法是用這些深度學習模型去學習具體任務,等到它學會了我們再想法來理解它。 那我說你不還是搞一些toy model 給我嗎? 誰信? 沒關系, 不是有實驗數據嗎, 我們先讓它能做任務, 再用它來擬合我們的實驗數據, 比如你先訓練一個CNN來做圖像識別, 同時訓練好后, 你想法讓這個CNN里的神經元活動能夠匹配從大腦視覺皮層得到的實驗數據, 這樣你就得到“生物版” CNN。為了確定它是一個真正的科學, 而不是一種“形似”的騙術, 我們會用這個生物版本的CNN提出一些新的現象預測, 可以拿回到實驗檢驗, 如果真的成立了, 這個用深度學習“構建出來”的模型, 就可以得到一個我們目前階段最接近真實生物系統的模型。 你可以理解我們做了一個機器貓,它不僅能夠捉老鼠,而且各項生理指標也和真貓差不多。

讓深度網絡和動物看同樣的圖像,并把它們的內部活動聯系起來!

具體可以見Nature論文Using goal-driven deep learning models to understand sensory cortex。

這一類的工作還有一個talk是如何構建一個CNN網絡理解人類的視網膜系統,同樣的,這個網絡既有視覺信息的處理能力, 同時還能夠描述生物的神經活動, 甚至可以預測一些生物視網膜特有的現象(如對未來運動信息的預測)。這一類工作可以說打通了生物與工程, 雖然人工神經網絡無論在單個神經元還是在功能層面和神經元活動層面都獲取了類似于真實生物系統的特性, 我們又有多大可能認為我們用這個方法理解大腦的真正工作機理, 這依然是一個仁者見仁 ,智能見智的過程。

最后, 關于所有人的夢想, 把大腦的牛逼算法遷移到AI, 有一個talk頗有啟發。 它來自于斯坦福的Surya Ganguli,如何讓深度網絡生成語義結構:一個AI最根本的問題是如何溝通統計主義, 連接主義和符號主義的人工智能, 統計機器學習與深度學習代表了前兩者的巔峰, 而早期活躍的符號主義目前只保留了知識圖譜這樣的果實殘留。 事實上, 如果不能讓符號主義的思維重新以某個方式進入到深度學習, 真正的AI將很難到來。 而這個方向的第一個步驟就是如何得到語義結構的神經表示。 人類的語言,可以用幾千個單詞表達十萬百萬的事物, 由于組合規則和樹結構。那些共用特征的概念會被放在一個樹枝之上, 而另一些則會放在其它樹枝上。 這種特征層級結構, 使得人類的概念學習極為有效率, 只要直接把一個新概念放到它應該在的枝椏上, 有些該有的就都有了。 那么, 基于統計和連接主義的神經網絡可不可以再現這種樹結構呢?Ganguli 的研究給這個方向提示了可能, 它把學習和非線性系統在高維空間的運動聯系起來,訓練,就是不同的概念根據其間相似度互相分離的過程。 通過分叉等結構, 把概念的樹結構和動力學空間聯系在了一起。 詳情請見論文: A mathematical theory of semantic development.

A mathematical theory of semantic development deep neural networks。 學習過程里的概念分離

這個會議, 可以說對于深度學習和腦科學未來的發展, 意義都非常深刻。 我看到的是, 盡管人們都懷揣著統一兩個領域的夢想, 但現實的差距還非常遙遠, 雙方的溝通依然艱難。而這也更突出了這類會議的難能可貴。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 人工智能
    +關注

    關注

    1779

    文章

    44388

    瀏覽量

    231219
  • 深度學習
    +關注

    關注

    73

    文章

    5250

    瀏覽量

    120024
  • cnn
    cnn
    +關注

    關注

    3

    文章

    326

    瀏覽量

    21439

原文標題:徐鐵:當深度學習握手腦科學-圣城會議歸來

文章出處:【微信號:AItists,微信公眾號:人工智能學家】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    Nanopi深度學習之路(1)深度學習框架分析

    就能實現!還請關注我后面的日記。實際上我也是剛剛有時間學習深度學習,我是個純初學者,但面對深度學習里的各種復雜
    發表于 06-04 22:32

    深度學習入門之基于python的理論與實現

    深度學習入門-基于python的理論與實現(2)
    發表于 06-19 11:22

    深度學習存在哪些問題?

    深度學習常用模型有哪些?深度學習常用軟件工具及平臺有哪些?深度學習存在哪些問題?
    發表于 10-14 08:20

    深度學習模型是如何創建的?

    具有深度學習模型的嵌入式系統應用程序帶來了巨大的好處。深度學習嵌入式系統已經改變了各個行業的企業和組織。深度
    發表于 10-27 06:34

    什么是深度學習?使用FPGA進行深度學習的好處?

    什么是深度學習為了解釋深度學習,有必要了解神經網絡。神經網絡是一種模擬人腦的神經元和神經網絡的計算模型。作為具體示例,讓我們考慮一個輸入圖像并識別圖像中對象類別的示例。這個例子對應機器
    發表于 02-17 16:56

    Linux之work_queue_share教程

    Linux之work_queue_share教程,很好的Linux資料,快來學習
    發表于 04-15 17:49 ?13次下載

    Linux之work_queue_custom教程

    Linux之work_queue_custom教程,很好的Linux自學資料,快來學習吧。
    發表于 04-15 17:49 ?8次下載

    Linux之work_queue_delay_work教程

    Linux之work_queue_delay_work教程,很好的Linux自學資料,快來學習吧。
    發表于 04-15 17:54 ?12次下載

    谷歌為何深度學習感興趣?

    深度學習是當前最熱門的人工智能領域。傳統計算機盡管速度很快,但缺乏智能性。這些計算機無法從以往的錯誤中學習,在執行某項任務時必須獲得精確指令。 深度
    發表于 02-12 07:27 ?1037次閱讀

    深度學習是什么?了解深度學習難嗎?讓你快速了解深度學習的視頻講解

    深度學習是什么?了解深度學習難嗎?讓你快速了解深度學習的視頻講解本文檔視頻讓你4分鐘快速了解
    發表于 08-23 14:36 ?16次下載

    如何理解深度學習?深度學習理論探索分析

    普林斯頓大學計算機科學系教授Sanjeev Arora做了深度學習理論理解探索的報告,包括三個部分:
    的頭像 發表于 10-03 12:41 ?3514次閱讀

    深度學習算法簡介 深度學習算法是什么 深度學習算法有哪些

    深度學習算法簡介 深度學習算法是什么?深度學習算法有哪些?? 作為一種現代化、前沿化的技術,
    的頭像 發表于 08-17 16:02 ?7266次閱讀

    什么是深度學習算法?深度學習算法的應用

    什么是深度學習算法?深度學習算法的應用 深度學習算法被認為是人工智能的核心,它是一種模仿人類大腦
    的頭像 發表于 08-17 16:03 ?1565次閱讀

    深度學習框架是什么?深度學習框架有哪些?

    深度學習框架是什么?深度學習框架有哪些?? 深度學習框架是一種軟件工具,它可以幫助開發者輕松快速
    的頭像 發表于 08-17 16:03 ?1948次閱讀

    深度學習框架和深度學習算法教程

    深度學習框架和深度學習算法教程 深度學習是機器學習
    的頭像 發表于 08-17 16:11 ?764次閱讀
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>