<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

深度分析NLP中的注意力機制

DPVg_AI_era ? 來源:cc ? 2019-02-17 09:18 ? 次閱讀

注意力機制越發頻繁的出現在文獻中,因此對注意力機制的學習、掌握與應用顯得十分重要。本文便對注意力機制做了較為全面的綜述。

近些年來,注意力機制一直頻繁的出現在目之所及的文獻或者博文中,可見在NLP中算得上是個相當流行的概念,事實也證明其在NLP領域散發出不小得作用。這幾年的頂會paper就能看出這一點。本文深入淺出地介紹了近些年的自然語言中的注意力機制包括從起源、變體到評價指標方面。

本文便對NLP的注意力機制進行了綜述。

目錄

1.寫在前面

2.Seq2Seq 模型

3.NLP中注意力機制起源

4.NLP中的注意力機制

5.Hierarchical Attention

6.Self-Attention

7.Memory-based Attention

8.Soft/Hard Attention

9.Global/Local Attention

10.評價指標

11.寫在后面

12.參考文獻

寫在前面

據Lilian Weng博主[1]總結以及一些資料顯示,Attention機制最早應該是在視覺圖像領域提出來的,這方面的工作應該很多,歷史也比較悠久。人類的視覺注意力雖然存在很多不同的模型,但它們都基本上歸結為給予需要重點關注的目標區域(注意力焦點)更重要的注意力,同時給予周圍的圖像低的注意力,然后隨著時間的推移調整焦點。

而直到Bahdanau等人[3]發表了論文《Neural Machine Translation by Jointly Learning to Align and Translate》,該論文使用類似attention的機制在機器翻譯任務上將翻譯和對齊同時進行,這個工作目前是最被認可為是第一個提出attention機制應用到NLP領域中的工作,值得一提的是,該論文2015年被ICLR錄用,截至現在,谷歌引用量為5596,可見后續nlp在這一塊的研究火爆程度。

注意力機制首先從人類直覺中得到,在nlp領域的機器翻譯任務上首先取得不錯的效果。簡而言之,深度學習中的注意力可以廣義地解釋為重要性權重的向量:為了預測一個元素,例如句子中的單詞,使用注意力向量來估計它與其他元素的相關程度有多強,并將其值的總和作為目標的近似值。既然注意力機制最早在nlp領域應用于機器翻譯任務,那在這個之前又是怎么做的呢?

傳統的基于短語的翻譯系統通過將源句分成多個塊然后逐個詞地翻譯它們來完成它們的任務,這導致了翻譯輸出的不流暢。不妨先來想想我們人類是如何翻譯的?我們首先會閱讀整個待翻譯的句子,然后結合上下文理解其含義,最后產生翻譯。

從某種程度上來說,神經機器翻譯(NMT)的提出正是想去模仿這一過程。而在NMT的翻譯模型中經典的做法是由編碼器 - 解碼器架構制定(encoder-decoder),用作encoder和decoder常用的是循環神經網絡。這類模型大概過程是首先將源句子的輸入序列送入到編碼器中,提取最后隱藏狀態的表示并用于解碼器的輸入,然后一個接一個地生成目標單詞,這個過程廣義上可以理解為不斷地將前一個時刻 t-1 的輸出作為后一個時刻 t 的輸入,循環解碼,直到輸出停止符為止。

通過這種方式,NMT解決了傳統的基于短語的方法中的局部翻譯問題:它可以捕獲語言中的長距離依賴性,并提供更流暢的翻譯。

但是這樣做也存在很多缺點,譬如,RNN是健忘的,這意味著前面的信息在經過多個時間步驟傳播后會被逐漸消弱乃至消失。其次,在解碼期間沒有進行對齊操作,因此在解碼每個元素的過程中,焦點分散在整個序列中。對于前面那個問題,LSTM、GRU在一定程度能夠緩解。而后者正是Bahdanau等人重視的問題。

Seq2Seq模型

在介紹注意力模型之前,不得不先學習一波Encoder-Decoder框架,雖然說注意力模型可以看作一種通用的思想,本身并不依賴于特定框架(比如文章[15]:Learning Sentence Representation with Guidance of Human Attention),但是目前大多數注意力模型都伴隨在Encoder-Decoder框架下。

Seq2seq模型最早由bengio等人[17]論文《Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation》。隨后Sutskever等人[16]在文章《Sequence to Sequence Learning with Neural Networks》中提出改進模型即為目前常說的Seq2Seq模型。

從廣義上講,它的目的是將輸入序列(源序列)轉換為新的輸出序列(目標序列),這種方式不會受限于兩個序列的長度,換句話說,兩個序列的長度可以任意。以nlp領域來說,序列可以是句子、段落、篇章等,所以我們也可以把它看作處理由一個句子(段落或篇章)生成另外一個句子(段落或篇章)的通用處理模型。

對于句子對,我們期望輸入句子Source,期待通過Encoder-Decoder框架來生成目標句子Target。Source和Target可以是同一種語言,也可以是兩種不同的語言,若是不同語言,就可以處理翻譯問題了。若是相同語言,輸入序列Source長度為篇章,而目標序列Target為小段落則可以處理文本摘要問題 (目標序列Target為句子則可以處理標題生成問題)等等等。

seq2seq模型通常具有編碼器 - 解碼器架構:

編碼器encoder: 編碼器處理輸入序列并將序列信息壓縮成固定長度的上下文向量(語義編碼/語義向量context)。期望這個向量能夠比較好的表示輸入序列的信息。

解碼器decoder: 利用上下文向量初始化解碼器以得到變換后的目標序列輸出。早期工作僅使用編碼器的最后狀態作為解碼器的輸入。

編碼器和解碼器都是循環神經網絡,比較常見的是使用LSTM或GRU。

編碼器 - 解碼器模型

NLP中注意力機制的起源

前面談到在Seq2Seq結構中,encoder把所有的輸入序列都編碼成一個統一的語義向量context,然后再由decoder解碼。而context自然也就成了限制模型性能的瓶頸。

譬如機器翻譯問題,當要翻譯的句子較長時,一個context可能存不下那么多信息。除此之外,只用編碼器的最后一個隱藏層狀態,感覺上都不是很合理。

實際上當我們翻譯一個句子的時候,譬如:Source: 機器學習-->Target: machine learning。當decoder要生成"machine"的時候,應該更關注"機器",而生成"learning"的時候,應該給予"學習"更大的權重。所以如果要改進Seq2Seq結構,一個不錯的想法自然就是利用encoder所有隱藏層狀態解決context限制問題。

Bahdanau等人[3]把attention機制用到了神經網絡機器翻譯(NMT)上。傳統的encoder-decoder模型通過encoder將Source序列編碼到一個固定維度的中間語義向量context,然后再使用decoder進行解碼翻譯到目標語言序列。前面談到了這種做法的局限性,而且,Bahdanau等人[3]在其文章的摘要中也說到這個context可能是提高這種基本編碼器 - 解碼器架構性能的瓶頸,那Bahdanau等人又是如何嘗試緩解這個問題的呢? 別急,讓我們來一探究竟。

作者為了緩解中間向量context很難將Source序列所有重要信息壓縮進來的問題,特別是對于那些很長的句子。提出在機器翻譯任務上在 encoder–decoder 做出了如下擴展:將翻譯和對齊聯合學習。這個操作在生成Target序列的每個詞時,用到的中間語義向量context是Source序列通過encoder的隱藏層的加權和,而傳統的做法是只用encoder最后一個時刻輸出作為context,這樣就能保證在解碼不同詞的時候,Source序列對現在解碼詞的貢獻是不一樣的。

想想前面那個例子:Source: 機器學習-->Target: machine learning (假如中文按照字切分)。decoder在解碼"machine"時,"機"和"器"提供的權重要更大一些,同樣,在解碼"learning"時,"學"和"習"提供的權重相應的會更大一些,這在直覺也和人類翻譯也是一致的。

通過這種attention的設計,作者將Source序列的每個詞(通過encoder的隱藏層輸出)和Target序列 (當前要翻譯的詞) 的每個詞巧妙的建立了聯系。想一想,翻譯每個詞的時候,都有一個語義向量,而這個語義向量是Source序列每個詞通過encoder之后的隱藏層的加權和。 由此可以得到一個Source序列和Target序列的對齊矩陣,通過可視化這個矩陣,可以看出在翻譯一個詞的時候,Source序列的每個詞對當前要翻譯詞的重要性分布,這在直覺上也能給人一種可解釋性的感覺。

論文中的圖也能很好的看出這一點:

生成第t個目標詞

更形象一點可以看這個圖:

現在讓我們從公式層面來看看這個東東 (加粗變量表示它們是向量,這篇文章中的其他地方也一樣)。 假設我們有一個長度為n的源序列x,并嘗試輸出長度為m的目標序列y:

作者采樣bidirectional RNN作為encoder(實際上這里可以有很多選擇),具有前向隱藏狀態和后向隱藏狀態。為了獲得詞的上下文信息,作者采用簡單串聯方式將前向和后向表示拼接作為encoder的隱藏層狀態,公式如下:

對于目標(輸出)序列的每個詞(假設位置為t),decoder網絡的隱藏層狀態:

其中,語義向量 是源(輸入)序列的隱藏狀態的加權和,權重為對齊分數:

(注意:這里的score函數為原文的a函數,原文的描述為:is an alignment model)

對齊模型基于(在i時刻的輸入)和(在t時刻的輸出)的匹配程度分配分數。

在Bahdanau[3]的論文中,作者采用的對齊模型為前饋神經網絡,該網絡與所提出的系統的所有其他組件共同訓練。因此,score函數采用以下形式,tanh用作非線性激活函數,公式如下:

其中,和都是在對齊模型中學習的權重矩陣。對齊分數矩陣是一個很好的可解釋性的東東,可以明確顯示源詞和目標詞之間的相關性。

對齊矩陣例子

而decoder每個詞的條件概率為:

g為非線性的,可能是多層的輸出概率的函數,是RNN的隱藏狀態, 為語義向量。

NLP中注意力機制

隨著注意力機制的廣泛應用,在某種程度上緩解了源序列和目標序列由于距離限制而難以建模依賴關系的問題?,F在已經涌現出了一大批基于基本形式的注意力的不同變體來處理更復雜的任務。讓我們一起來看看其在不同NLP問題中的注意力機制。

其實我們可能已經意識到了,對齊模型的設計不是唯一的,確實,在某種意義上說,根據不同的任務設計適應于特定任務的對齊模型可以看作設計出了新的attention變體,讓我們再回過頭來看看這個對齊模型(函數):。再來看看幾個代表性的work。

Citation[5]等人提出Content-base attention,其對齊函數模型設計為:

Bahdanau[3]等人的Additive(*),其設計為:

Luong[4]等人文獻包含了幾種方式:

以及Luong[4]等人還嘗試過location-based function:

這種方法的對齊分數僅從目標隱藏狀態學習得到。

Vaswani[6]等人的Scaled Dot-Product(^):

細心的童鞋可能早就發現了這東東和點積注意力很像,只是加了個scale factor。當輸入較大時,softmax函數可能具有極小的梯度,難以有效學習,所以作者加入比例因子。

Cheng[7]等人的Self-Attention(&)可以關聯相同輸入序列的不同位置。 從理論上講,Self-Attention可以采用上面的任何 score functions。在一些文章中也稱為“intra-attention” 。

Hu[7]對此分了個類:

前面談到的一些Basic Attention給人的感覺能夠從序列中根據權重分布提取重要元素。而Multi-dimensional Attention能夠捕獲不同表示空間中的term之間的多個交互,這一點簡單的實現可以通過直接將多個單維表示堆疊在一起構建。Wang[8]等人提出了coupled multi-layer attentions,該模型屬于多層注意力網絡模型。作者稱,通過這種多層方式,該模型可以進一步利用術語之間的間接關系,以獲得更精確的信息。

再來看看Hierarchical Attention,Yang[9]等人提出了Hierarchical Attention Networks,看下面的圖可能會更直觀:

Hierarchical Attention Networks

這種結構能夠反映文檔的層次結構。模型在單詞和句子級別分別設計了兩個不同級別的注意力機制,這樣做能夠在構建文檔表示時區別地對待這些內容。Hierarchical attention可以相應地構建分層注意力,自下而上(即,詞級到句子級)或自上而下(詞級到字符級),以提取全局和本地的重要信息。自下而上的方法上面剛談完。那么自上而下又是如何做的呢?讓我們看看Ji[10]等人的模型:

Nested Attention Hybrid Model

和機器翻譯類似,作者依舊采用encoder-decoder架構,然后用word-level attention對全局語法和流暢性糾錯,設計character-level attention對本地拼寫錯誤糾正。

Self-Attention

那Self-Attention又是指什么呢?

Self-Attention(自注意力),也稱為intra-attention(內部注意力),是關聯單個序列的不同位置的注意力機制,以便計算序列的交互表示。它已被證明在很多領域十分有效比如機器閱讀,文本摘要或圖像描述生成。

比如Cheng[11]等人在機器閱讀里面利用了自注意力。當前單詞為紅色,藍色陰影的大小表示激活程度,自注意力機制使得能夠學習當前單詞和句子前一部分詞之間的相關性。

當前單詞為紅色,藍色陰影的大小表示激活程度

比如Xu[12]等人利用自注意力在圖像描述生成任務。注意力權重的可視化清楚地表明了模型關注的圖像的哪些區域以便輸出某個單詞。

我們假設序列元素為,其匹配向量為。讓我們再來回顧下前面說的基本注意力的對齊函數,attention score通過計算得到,由于是通過將外部u與每個元素匹配來計算注意力,所以這種形式可以看作是外部注意力。當我們把外部u替換成序列本身(或部分本身),這種形式就可以看作為內部注意力(internal attention)。

我們根據文章[7]中的例子來看看這個過程,例如句子:"Volleyball match is in progress between ladies"。句子中其它單詞都依賴著"match",理想情況下,我們希望使用自注意力來自動捕獲這種內在依賴。換句話說,自注意力可以解釋為,每個單詞去和V序列中的內部模式匹配,匹配函數。很自然的選擇為V中其它單詞 ,這樣遍可以計算成對注意力得分。為了完全捕捉序列中單詞之間的復雜相互作用,我們可以進一步擴展它以計算序列中每對單詞之間的注意力。這種方式讓每個單詞和序列中其它單詞交互了關系。

另一方面,自注意力還可以自適應方式學習復雜的上下文單詞表示。譬如經典文章[14]:A structured self-attentive sentence embedding。這篇文章提出了一種通過引入自關注力機制來提取可解釋句子嵌入的新模型。 使用二維矩陣而不是向量來代表嵌入,矩陣的每一行都在句子的不同部分,想深入了解的可以去看看這篇文章,另外,文章的公式感覺真的很漂亮。

值得一提還有2017年谷歌提出的Transformer[6],這是一種新穎的基于注意力的機器翻譯架構,也是一個混合神經網絡,具有前饋層和自注意層。論文的題目挺霸氣:Attention is All you Need,毫無疑問,它是2017年最具影響力和最有趣的論文之一。那這篇文章的Transformer的廬山真面目到底是這樣的呢?

這篇文章為提出許多改進,在完全拋棄了RNN的情況下進行seq2seq建模。接下來一起來詳細看看吧。

Key,Value and Query

眾所周知,在NLP任務中,通常的處理方法是先分詞,然后每個詞轉化為對應的詞向量。接著一般最常見的有二類操作,第一類是接RNN(變體LSTM、GRU、SRU等),但是這一類方法沒有擺脫時序這個局限,也就是說無法并行,也導致了在大數據集上的速度效率問題。第二類是接CNN,CNN方便并行,而且容易捕捉到一些全局的結構信息。很長一段時間都是以上二種的抉擇以及改造,直到谷歌提供了第三類思路:純靠注意力,也就是現在要講的這個東東。

將輸入序列編碼表示視為一組鍵值對(K,V)以及查詢 Q,因為文章[6]取K=V=Q,所以也自然稱為Self Attention。

K, V像是key-value的關系從而是一一對應的,那么上式的意思就是通過Q中每個元素query,與K中各個元素求內積然后softmax的方式,來得到Q中元素與V中元素的相似度,然后加權求和,得到一個新的向量。其中因子為了使得內積不至于太大。以上公式在文中也稱為點積注意力(scaled dot-product attention):輸出是值的加權和,其中分配給每個值的權重由查詢的點積與所有鍵確定。

而Transformer主要由多頭自注意力(Multi-Head Self-Attention)單元組成。那么Multi-Head Self-Attention又是什么呢?以下為論文中的圖:

Multi-head scaled dot-product attention mechanism

Multi-Head Self-Attention不是僅僅計算一次注意力,而是多次并行地通過縮放的點積注意力。 獨立的注意力輸出被簡單地連接并線性地轉換成預期的維度。論文[6]表示,多頭注意力允許模型共同關注來自不同位置的不同表示子空間的信息。 只有一個注意力的頭,平均值就會抑制這一點。

是需要學習的參數矩陣。既然為seq2seq模式,自然也包括encoder和decoder,那這篇文章又是如何構建這些的呢?莫急,請繼續往下看。

Encoder

The transformer's encoder

編碼器生成基于自注意力的表示,其能夠從可能無限大的上下文中定位特定信息。值得一提的是,上面的結構文章堆了六個。

每層都有一個多頭自注意力層

每層都有一個簡單的全連接的前饋網絡

每個子層采用殘差連接和層規范化。 所有子層輸出相同維度dmodel = 512。

Decoder

The transformer's decoder.

解碼器能夠從編碼表示中檢索。上面的結構也堆了六個。

每層有兩個多頭注意機制子層。

每層有一個完全連接的前饋網絡子層。

與編碼器類似,每個子層采用殘差連接和層規范化。

與encoder不同的是,第一個多頭注意子層被設計成防止關注后續位置,因為我們不希望在預測當前位置時查看目標序列的未來。最后來看一看整體架構:

The full model architecture of the transformer.

Memory-based Attention

那Memory-based Attention又是什么呢?我們先換種方式來看前面的注意力,假設有一系列的鍵值對 存在內存中和查詢向量q,這樣便能重寫為以下過程:

這種解釋是把注意力作為使用查詢q的尋址過程,這個過程基于注意力分數從memory中讀取內容。聰明的童鞋肯定已經發現了,如果我們假設,這不就是前面談到的基礎注意力么?然而,由于結合了額外的函數,可以實現可重用性和增加靈活性,所以Memory-based attention mechanism可以設計得更加強大。

那為什么又要這樣做呢?在nlp的一些任務上比如問答匹配任務,答案往往與問題間接相關,因此基本的注意力技術就顯得很無力了。那處理這一任務該如何做才好呢?這個時候就體現了Memory-based attention mechanism的強大了,譬如Sukhbaatar[19]等人通過迭代內存更新(也稱為多跳)來模擬時間推理過程,以逐步引導注意到答案的正確位置:

在每次迭代中,使用新內容更新查詢,并且使用更新的查詢來檢索相關內容。一種簡單的更新方法為相加。那么還有其它更新方法么?

當然有,直覺敏感的童鞋肯定想到了,光是這一點,就可以根據特定任務去設計,比如Kuma[13]等人的工作。這種方式的靈活度也體現在key和value可以自由的被設計,比如我們可以自由地將先驗知識結合到key和value嵌入中,以允許它們分別更好地捕獲相關信息??吹竭@里是不是覺得文章灌水其實也不是什么難事了。

Soft/Hard Attention

最后想再談談Soft/Hard Attention,是因為在很多地方都看到了這個名詞。

據我所知,這個概念由《Show, Attend and Tell: Neural Image Caption Generation with Visual Attention》提出,這是對attention另一種分類。SoftAttention本質上和Bahdanau等人[3]很相似,其權重取值在0到1之間,而Hard Attention取值為0或者1。

Global/Local Attention

Luong等人[4]提出了Global Attention和Local Attention。Global Attention本質上和Bahdanau等人[3]很相似。Global方法顧名思義就是會關注源句子序列的所有詞,具體地說,在計算語義向量時,會考慮編碼器所有的隱藏狀態。而在Local Attention中,計算語義向量時只關注每個目標詞的一部分編碼器隱藏狀態。由于Global方法必須計算源句子序列所有隱藏狀態,當句子長度過長會使得計算代價昂貴并使得翻譯變得不太實際,比如在翻譯段落和文檔的時候。

評價指標

在看一些帶有attention的paper時,常常會伴隨著為了說明自己文章attention是work的實驗,但實際上嘗試提供嚴格數學證明的文章極少。

Hu[7]把Attention的評價方式分為兩類,Quantitative(定量指標)和Qualitative(定性指標)。定量指標顧名思義就是對attention的貢獻就行量化,這一方面一般會結合下游任務,最常見的當屬機器翻譯,我們都知道機器翻譯的最流行評價指標之一是BLEU,我們可以在翻譯任務設計attention和不加attention進行對比,對比的指標就是BLEU,設置我們可以設計多種不同的attention進行對比。

定性指標評價是目前應用最廣泛的評價技術,因為它簡單易行,便于可視化。具體做法一般都是為整個句子構建一個熱力圖,其熱力圖強度與每個單詞接收到的標準化注意力得分成正比。也就是說,詞的貢獻越大,顏色越深。其實這在直覺上也是能夠接收的,因為往往相關任務的關鍵詞的attention權值肯定要比其它詞重要。比如Hu[7]文中的圖:

寫在后面

本文參考了眾多文獻,對近些年的自然語言中的注意力機制從起源、變體到評價方面都進行了簡要介紹,但是要明白的是,實際上注意力機制在nlp上的研究特別多,為此,我僅僅對18、19年的文獻進行了簡單的調研(AAAI、IJCAI、ACL、EMNLP、NAACL等頂會),就至少有一百篇之多,足見attention還是很潮的,所以我也把鏈接放到了我的github上。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 自然語言
    +關注

    關注

    1

    文章

    271

    瀏覽量

    13219
  • nlp
    nlp
    +關注

    關注

    1

    文章

    464

    瀏覽量

    21858

原文標題:一文解讀NLP中的注意力機制

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    基于labview的注意力分配實驗設計

    畢設要求做一個注意力分配實驗設計。有些結構完全想不明白。具體如何實現如下。一個大概5*5的燈組合,要求隨機亮。兩個聲音大小不同的音頻,要求隨機響,有大、小兩個選項。以上兩種需要記錄并計算錯誤率。體現在表格上。大家可不可以勞煩幫個忙,幫我構思一下, 或者幫我做一下。拜托大家了。
    發表于 05-07 20:33

    什么是深度殘差收縮網絡?

       深度殘差收縮網絡是深度殘差網絡的一種新的升級版本,其實是深度殘差網絡、注意力機制(參照Squeeze-and-Excitation N
    發表于 11-26 06:33

    注意力機制的誕生、方法及幾種常見模型

    簡而言之,深度學習中的注意力機制可以被廣義地定義為一個描述重要性的權重向量:通過這個權重向量為了預測或者推斷一個元素,比如圖像中的某個像素或句子中的某個單詞,我們使用注意力向量定量地估
    的頭像 發表于 03-12 09:49 ?4.1w次閱讀

    注意力機制或將是未來機器學習的核心要素

    目前注意力機制已是深度學習里的大殺器,無論是圖像處理、語音識別還是自然語言處理的各種不同類型的任務中,都很容易遇到注意力模型的身影。
    發表于 05-07 09:37 ?1162次閱讀

    基于注意力機制深度興趣網絡點擊率模型

    廣告點擊率(CTR)是互聯網公司進行流量分配的重要依據,針對目前點擊率預估精度較低的問題,結合通用的神經網絡解決方案,構建一種基于注意力機制深度興趣網絡(ADIN)模型。設計一個局部激活單元
    發表于 03-12 10:55 ?5次下載
    基于<b class='flag-5'>注意力</b><b class='flag-5'>機制</b>的<b class='flag-5'>深度</b>興趣網絡點擊率模型

    基于注意力機制深度學習模型AT-DPCNN

    情感分析是自然語言處理領域的一個重要分支,卷積神經網絡(CNN)在文本情感分析方面取得了較好的效果,但其未充分提取文本信息中的關鍵情感信息。為此,建立一種基于注意力機制
    發表于 03-17 09:53 ?12次下載
    基于<b class='flag-5'>注意力</b><b class='flag-5'>機制</b>的<b class='flag-5'>深度</b>學習模型AT-DPCNN

    基于注意力機制的狹小空間人群擁擠度分析方法

    ,提岀一種基于注意力機制的狹小空間人群擁擠度分析方法,旨在量化人群,通過卷積神經網絡回歸擁擠率分析當前空間內的人群擁擠程度。設計一個注意力
    發表于 03-22 11:24 ?7次下載
    基于<b class='flag-5'>注意力</b><b class='flag-5'>機制</b>的狹小空間人群擁擠度<b class='flag-5'>分析</b>方法

    結合注意力機制的改進深度學習光流網絡

    為提升基于編解碼架構的U型網絡在深度學習光流估計中的精度,提岀了一種結合注意力機制的改進有監督深度學習光流網絡。網絡由收縮和擴張兩部分組成,收縮部分利用一系列卷積層來提取圖像之間的高級
    發表于 04-07 13:56 ?4次下載
    結合<b class='flag-5'>注意力</b><b class='flag-5'>機制</b>的改進<b class='flag-5'>深度</b>學習光流網絡

    基于多層注意力機制的回指消解算法綜述

    在信息抽取過程中,無法被判別的回指易造成信息抽取不完整的情況,這種指代關系可通過分析當前語境下的指代部分、被指代部分、周圍的信息及原文內容生成的唯一判別信息進行判斷。為此,構建一個多層注意力機制模型
    發表于 05-27 17:10 ?2次下載

    基于多通道自注意力機制的電子病歷架構

    基于多通道自注意力機制的電子病歷架構
    發表于 06-24 16:19 ?75次下載

    基于注意力機制的跨域服裝檢索方法綜述

    基于注意力機制的跨域服裝檢索方法綜述
    發表于 06-27 10:33 ?2次下載

    基于注意力機制的新聞文本分類模型

    基于注意力機制的新聞文本分類模型
    發表于 06-27 15:32 ?30次下載

    計算機視覺中的注意力機制

    計算機視覺中的注意力機制 卷積神經網絡中常用的Attention 參考 注意力機制簡介與分類 注意力
    發表于 05-22 09:46 ?0次下載
    計算機視覺中的<b class='flag-5'>注意力</b><b class='flag-5'>機制</b>

    一種新的深度注意力算法

    。本文首先回顧了相關基礎知識,然后介紹了深度殘差收縮網絡的動機和具體實現,希望對大家有所幫助。 1.前言 深度殘差收縮網絡主要建立在三個部分的基礎之上:深度殘差網絡、軟閾值函數和注意力
    發表于 05-24 16:28 ?0次下載
    一種新的<b class='flag-5'>深度</b><b class='flag-5'>注意力</b>算法

    PyTorch教程11.4之Bahdanau注意力機制

    電子發燒友網站提供《PyTorch教程11.4之Bahdanau注意力機制.pdf》資料免費下載
    發表于 06-05 15:11 ?0次下載
    PyTorch教程11.4之Bahdanau<b class='flag-5'>注意力</b><b class='flag-5'>機制</b>
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>