<acronym id="s8ci2"><small id="s8ci2"></small></acronym>

<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>

<acronym id="s8ci2"></acronym>

<acronym id="s8ci2"><center id="s8ci2"></center></acronym>

電子發燒友App

硬聲App

搜索歷史

清空

搜索熱詞

0

聊天消息
系統消息
評論與回復

查看更多

查看更多

查看更多

登錄后你可以

下載海量資料
學習在線課程
觀看技術視頻
寫文章/發帖/加入社區

創作中心

發布

創作活動

完善資料讓更多小伙伴認識你，還能領取20積分哦，立即完善>

3天內不再提示

電子發燒友網>人工智能>關于深度學習模型Transformer模型的具體實現方案

關于深度學習模型Transformer模型的具體實現方案

今天給大家分享一篇關于深度學習模型Transformer的文章。我愿稱之為講解Transformer模型最好的文章。

文章內容主要介紹 Transformer 模型的具體實現：

Transformer整體架構

Transformer概覽

引入張量

自注意力機制Self-Attention

多頭注意力機制Mutil-Head Attention

位置反饋網絡(Position-wise Feed-Forward Networks)

殘差連接和層歸一化（Add & Normalize）

位置編碼（Positional Encoding）

解碼器Decoder

掩碼Mask：Padding Mask + Sequence Mask

最后的線性層和Softmax層

嵌入層和最終的線性層

正則化操作

博客地址：https://blog.csdn.net/benzhujie1245com/article/details/117173090

英文地址：http://jalammar.github.io/illustrated-transformer/

文章有點長，建議收藏

1、Transformer模型架構

2017 年，Google 在論文 Attentions is All you need（論文地址：https://arxiv.org/abs/1706.03762）中提出了 Transformer 模型，其使用 Self-Attention 結構取代了在 NLP 任務中常用的 RNN 網絡結構。

相比 RNN 網絡結構，其最大的優點是可以并行計算。Transformer 的整體模型架構如圖所示：

Transformer模型架構

2、Transformer 概覽

首先，讓我們先將 Transformer 模型視為一個黑盒，如圖所示。在機器翻譯任務中，將一種語言的一個句子作為輸入，然后將其翻譯成另一種語言的一個句子作為輸出：

Transformer 模型（黑盒模式）

2.1 Encoder-Decoder

Transformer 本質上是一個 Encoder-Decoder 架構。因此中間部分的 Transformer 可以分為兩個部分：編碼組件和解碼組件

Transformer 模型（Encoder-Decoder 架構模式）

其中，編碼組件由多層編碼器（Encoder）組成（在論文中作者使用了 6 層編碼器，在實際使用過程中你可以嘗試其他層數）。解碼組件也是由相同層數的解碼器（Decoder）組成（在論文也使用了 6 層）。

編碼器/解碼器組成

每個編碼器由兩個子層組成：

Self-Attention層（自注意力層）

Position-wise Feed Forward Network（前饋網絡，縮寫為 FFN）

如下圖所示：每個編碼器的結構都是相同的，但是它們使用不同的權重參數（6個編碼器的架構相同，但是參數不同）

Encoder編碼器組成

編碼器的輸入會先流入 Self-Attention 層。它可以讓編碼器在對特定詞進行編碼時使用輸入句子中的其他詞的信息（可以理解為：當我們翻譯一個詞時，不僅只關注當前的詞，而且還會關注其他詞的信息）。

注：關注詞語的上下文環境，不僅僅是詞語本身

后面我們將會詳細介紹 Self-Attention 的內部結構。然后，Self-Attention 層的輸出會流入前饋網絡。

解碼器也有編碼器中這兩層，但是它們之間還有一個注意力層（即 Encoder-Decoder Attention），其用來幫忙解碼器關注輸入句子的相關部分（類似于 seq2seq 模型中的注意力）

編碼器：self-attention層 + 前饋網絡FFN（Position-wise Feed Forward Network）

解碼器：self-attention層 + Encoder-Decoder Attention + 前饋網絡FFN（Position-wise Feed Forward Network）

3、引入張量

現在我們已經了解了模型的主要組成部分，讓我們開始研究各種向量/張量，以及他們在這些組成部分之間是如何流動的，從而將輸入經過已訓練的模型轉換為輸出。

3.1 引入詞嵌入Embedding

和通常的 NLP 任務一樣，首先，我們使用詞嵌入算法（Embedding） 將每個詞轉換為一個詞向量。

在 Transformer 論文中，詞嵌入向量的維度是 512。

每個詞被嵌入到大小為 512 的向量中。我們將用這些簡單的框代表這些向量。

詞嵌入僅發生在最底層的編碼器中。所有編碼器都會接收到一個大小為 512 的向量列表：

底部編碼器接收的是詞嵌入向量

其他編碼器接收的是上一個編碼器的輸出。

這個列表大小是我們可以設置的超參數——基本上這個參數就是訓練數據集中最長句子的長度。

3.2 詞嵌入后編碼

對輸入序列完成嵌入操作后，每個詞都會流經編碼器的兩層。

詞嵌入與編碼

接下來，我們將換一個更短的句子作為示例，來說明在編碼器的每個子層中發生了什么。

上面我們提到，編碼器會接收一個向量作為輸入。編碼器首先將這些向量傳遞到 Self-Attention 層，然后傳遞到前饋網絡，最后將輸出傳遞到下一個編碼器。

編碼器揭秘

4、Self-Attention（自注意力）

4.1 Self-Attention概覽

首先我們通過一個例子，來對 Self-Attention 有一個直觀的認識。假如我們要翻譯下面這個句子：

The?animal?didn’t?cross?the?street?because?it?was?too?tired

這個句子中的 it 指的是什么？是指 animal 還是 street ？對人來說，這是一個簡單的問題，但是算法來說卻不那么簡單。

當模型在處理 it 時，Self-Attention 機制使其能夠將 it 和 animal 關聯起來。

當模型處理每個詞（輸入序列中的每個位置）時，Self-Attention 機制使得模型不僅能夠關注當前位置的詞，而且能夠關注句子中其他位置的詞，從而可以更好地編碼這個詞。

如果你熟悉循環神經網絡 RNN，想想如何維護隱狀態，使 RNN 將已處理的先前詞/向量的表示與當前正在處理的詞/向量進行合并。Transformer 使用 Self-Attention 機制將其他詞的理解融入到當前詞中。

圖注：當我們在編碼器 #5（堆棧中的頂部編碼器）中對單詞it進行編碼時，有一部分注意力集中在The animal上，并將它們的部分信息融入到it的編碼中。

4.2 Self-Attention機制

下面我們來看一下Self-Attention的具體機制。其基本結構如圖所示：

Scaled Dot-Product Attention（縮放點積注意力）

對于 Self Attention 來講，Q（Query），K（Key）和 V（Value） 三個矩陣均來自同一輸入，并按照以下步驟計算：

首先計算 Q 和 K 之間的點積，為了防止其結果過大，會除以；其中為 Key 向量的維度。

然后利用Softmax操作將其結果歸一化為概率分布，再乘以矩陣 V 就得到權重求和的表示。

整個計算過程可以表示為：

為了更好的理解 Self-Attention，下面我們通過具體的例子進行詳細說明。

4.3 Self-Attention詳解

下面通過一個例子，讓我們看一下如何使用向量計算 Self-Attention。計算Self-Attention的步驟如下：

第 1 步：對編碼器的每個輸入向量（在本例中，即每個詞的詞向量）創建三個向量：

Query 向量

Key 向量

Value 向量

它們是通過詞向量分別和3個矩陣相乘得到的，這3個矩陣通過訓練獲得。

請注意，這些向量的維數小于詞向量的維數。新向量的維數為 64，而 embedding 和編碼器輸入/輸出向量的維數為 512。

新向量不一定非要更小，這是為了使多頭注意力計算保持一致的結構性選擇。

上圖中，乘以權重矩陣得到，即與該單詞關聯的Query向量。

最終會為輸入句子中的每個詞創建一個 Query，一個 Key 和一個 Value 向量

什么是 Query，Key 和 Value 向量？它們是一種抽象，對于注意力的計算和思考非常有用。繼續閱讀下面的注意力計算過程，你將了解這些向量所扮演的角色。

第 2 步：計算注意力分數。

假設我們正在計算這個例子中第一個詞 Thinking 的自注意力。我們需要根據 Thinking 這個詞，對句子中的每個詞都計算一個分數。這些分數決定了我們在編碼 Thinking 這個詞時，需要對句子中其他位置的每個詞放置多少的注意力。

這些分數，是通過計算 Thinking 的 Query 向量和需要評分的詞的Key向量的點積得到的。如果我們計算句子中第一個位置詞的注意力分數，則第一個分數是和的乘=點積，第二個分數是和的點積。

第 3 步：將每個分數除以；其中為 Key 向量的維度。

目的是在反向傳播時，求梯度更加穩定。實際上，你也可以除以其他數。

第 4 步：將這些分數進行 Softmax 操作。Softmax 將分數進行歸一化處理，使得它們都為正數并且和為1。

Softmax操作

這些 Softmax 分數決定了在編碼當前位置的詞時，對所有位置的詞分別有多少的注意力。很明顯，當前位置的詞匯有最高的分數，但有時注意一下與當前位置的詞相關的詞是很有用的。

第 5 步：將每個 Softmax 分數分別與每個 Value 向量相乘。

這種做法背后的直覺理解是：對于分數高的位置，相乘后的值就越大，我們把更多的注意力放在它們身上；對于分數低的位置，相乘后的值就越小，這些位置的詞可能是相關性不大，我們就可以忽略這些位置的詞。

越大越重視

第 6 步：將加權 Value 向量（即上一步求得的向量）求和。這樣就得到了自注意力層在這個位置的輸出。

self-attention完整過程

這樣就完成了自注意力的計算。生成的向量會輸入到前饋網絡中。但是在實際實現中，此計算是以矩陣形式進行，以便實現更快的處理速度。下面我們來看看如何使用矩陣計算。

4.4 使用矩陣計算 Self-Attention

第一步：計算Query、Key和Value矩陣。

首先將所有詞向量放到一個矩陣X中，然后分別和3個我們訓練過的權重矩陣（）相乘，即得到矩陣。

計算QKV矩陣

矩陣 X 中的每一行，表示輸入句子中的每一個詞的詞向量（長度為 512，在圖中為 4 個方框）

矩陣Q、K和V 中的每一行，分別表示Query向量，Key向量和Value 向量（它們的長度都為64，在圖中為3個方框）。

第2步：計算自注意力。由于這里使用了矩陣進行計算，可以將前面的第 2 步到第 6 步壓縮為一步。

矩陣形式的自注意力計算

5、多頭注意力機制（Multi-head Attention）

5.1 多頭注意力機制架構

在Transformer論文中，通過添加一種多頭注意力機制，進一步完善了自注意力層。具體做法：

首先，通過個不同的線性變換對Query、Key 和 Value 進行映射；

然后，將不同的 Attention 拼接起來；

最后，再進行一次線性變換。

基本結構如圖所示：

每一組注意力用于將輸入映射到不同的子表示空間，這使得模型可以在不同子表示空間中關注不同的位置。整個計算過程可表示為：

其中：、、和

在論文中，指定h=8，也就是使用8個注意力頭，和。

在多頭注意力下，我們為每組注意力單獨維護不同的Query、Key 和 Value 權重矩陣，從而得到不同的 Query、Key和Value 矩陣。

如前所述，我們將乘以矩陣，得到Query、Key和Value矩陣。

按照上面的方法，使用不同的權重矩陣進行 8 次自注意力計算，就可以得到 8 個不同的矩陣。

接下來就有點麻煩了。因為前饋神經網絡層接收的是 1 個矩陣（每個詞的詞向量），而不是上面的 8 個矩陣。因此，我們需要一種方法將這 8 個矩陣整合為一個矩陣。具體方法如下：

把8個矩陣拼接起來

把拼接后的矩陣和另一個權重矩陣相乘

得到最終的矩陣，這個矩陣包含了所有注意力頭的信息，這個矩陣會輸入到FFN層。

5.2 Multi-head Attention總結

這差不多就是多頭注意力的全部內容了。下面將所有內容放到一張圖中，以便我們可以統一查看：

現在讓我們重新回顧一下前面的例子，看看在對示例句中的“it”進行編碼時，不同的注意力頭關注的位置分別在哪：

當我們對it進行編碼時，一個注意力頭關注The animal，另一個注意力頭關注tired。從某種意義上來說，模型對it的表示，融入了animal和tired的部分表達。

Multi-head Attention 的本質是：在參數總量保持不變的情況下，將同樣的Query，Key，Value 映射到原來的高維空間的不同子空間中進行Attention的計算，在最后一步再合并不同子空間中的Attention信息。

這樣降低了計算每個 head 的 Attention 時每個向量的維度，在某種意義上防止了過擬合。

由于 Attention 在不同子空間中有不同的分布，Multi-head Attention 實際上是尋找了序列之間不同角度的關聯關系，并在最后拼接這一步驟中，將不同子空間中捕獲到的關聯關系再綜合起來。

6、位置前饋網絡（Position-wise Feed-Forward Networks）

位置前饋網絡就是一個全連接前饋網絡，每個位置的詞都單獨經過這個完全相同的前饋神經網絡。

其由兩個線性變換組成，即兩個全連接層組成，第一個全連接層的激活函數為 ReLU 激活函數?？梢员硎緸椋?/p>

在每個編碼器和解碼器中，雖然這個全連接前饋網絡結構相同，但是不共享參數。整個前饋網絡的輸入和輸出維度都是，第一個全連接層的輸出和第二個全連接層的輸入維度為

7、殘差連接和層歸一化

編碼器結構中有一個需要注意的細節：每個編碼器的每個子層（Self-Attention 層和 FFN 層）都有一個殘差連接，再執行一個層標準化操作，整個計算過程可以表示為：

將向量和自注意力層的層標準化操作可視化，如下圖所示：

上面的操作也適用于解碼器的子層。假設一個 Transformer 是由 2 層編碼器和 2 層解碼器組成，其如下圖所示：

為了方便進行殘差連接，編碼器和解碼器中的所有子層和嵌入層的輸出維度需要保持一致，在 Transformer 論文中

8、位置編碼

到目前為止，我們所描述的模型中缺少一個東西：表示序列中詞順序的方法。為了解決這個問題，Transformer 模型為每個輸入的詞嵌入向量添加一個向量。

這些向量遵循模型學習的特定模式，有助于模型確定每個詞的位置，或序列中不同詞之間的距離。

如果我們假設詞嵌入向量的維度是 4，那么實際的位置編碼如下：

那么位置編碼向量到底遵循什么模式？其具體的數學公式如下：

其中表示位置，表示維度。上面的函數使得模型可以學習到之間的相對位置關系：任意位置的都可以被的線性函數表示：

在下圖中，我們將這些值進行可視化。每一行對應一個向量的位置編碼。所以第一行對應于輸入序列中第一個詞的位置編碼。每一行包含 64 個值，每個值的范圍在 -1 和 1 之間

需要注意的是，官方提供的示例代碼（TensorFlow 1.x 版本中的 get_timing_signal_1d() 函數和 TensorFlow 2.x 版本中的 call() 函數）與 Transformer 論文中的方法稍微存在一定差異：

Transformer 論文中，sine 函數和 cosine 函數產生的值交織在一起；

而官方提供的代碼中，左半部分的值全是由 sine 函數產生的，右半部分的值全是由 cosine 函數產生的，然后將它們拼接起來。

官方代碼生成的位置編碼值的可視化圖如下：

這不是唯一一種生成位置編碼的方法。但這種方法的優點是：可以擴展到未知的序列長度。例如，當我們訓練后的模型被要求翻譯一個句子，而這個句子的長度大于訓練集中所有句子的長度。

9、解碼器Decoder

現在我們已經介紹了編碼器的大部分概念，我們也了解了解碼器的組件的原理?，F在讓我們看下編碼器和解碼器是如何協同工作的。

通過上面的介紹，我們已經了解第一個編碼器的輸入是一個序列，最后一個編碼器的輸出是一組注意力向量 Key 和 Value。這些向量將在每個解碼器的 Encoder-Decoder Attention 層被使用，這有助于解碼器把注意力集中在輸入序列的合適位置。

在完成了編碼階段后，我們開始解碼階段。解碼階段的每個時間步都輸出一個元素。

接下來會重復這個過程，直到輸出一個結束符，表示 Transformer 解碼器已完成其輸出。每一步的輸出都會在下一個時間步輸入到下面的第一個解碼器，解碼器像編碼器一樣將解碼結果顯示出來。就像我們處理編碼器輸入一樣，我們也為解碼器的輸入加上位置編碼，來指示每個詞的位置。

Encoder-Decoder Attention 層的工作原理和多頭自注意力機制類似。不同之處是：Encoder-Decoder Attention 層使用前一層的輸出構造 Query 矩陣，而 Key 和 Value 矩陣來自于編碼器棧的輸出。

10、掩碼Mask

Mask 表示掩碼，它對某些值進行掩蓋，使其在參數更新時不產生效果。Transformer 模型里面涉及兩種 mask，分別是 Padding Mask 和 Sequence Mask。

Padding Mask 在所有的 scaled dot-product attention 里面都需要用到

而Sequence Mask 只有在解碼器 Decoder 的 Self-Attention 里面用到。

10.1 Padding Mask

什么是 Padding mask 呢？因為每個批次輸入序列的長度是不一樣的，所以我們要對輸入序列進行對齊。

具體來說：就是在較短的序列后面填充 0（但是如果輸入的序列太長，則是截斷，把多余的直接舍棄）。因為這些填充的位置，其實是沒有什么意義的，所以我們的 Attention 機制不應該把注意力放在這些位置上，所以我們需要進行一些處理。

具體的做法：把這些位置的值加上一個非常大的負數（負無窮），這樣的話，經過Softmax 后，這些位置的概率就會接近0。

10.2 Sequence Mask

Sequence Mask是為了使得 Decoder 不能看見未來的信息。也就是對于一個序列，在時刻，我們的解碼輸出應該只能依賴于時刻之前的輸出，而不能依賴之后的輸出。因為我們需要想一個辦法，把之后的信息給隱藏起來。

具體的做法：產生一個上三角矩陣，上三角的值全為0。把這個矩陣作用在每個序列上，就可以達到我們的目的。

總結：對于Decoder的Self-Attention，里面使用到的scaled dot-product attention，同時需要Padding Mask 和Sequence Mask，具體實現就是兩個Mask相加。其他情況下，只需要Padding Mask。

11、最后的線性層和 Softmax 層

解碼器棧的輸出是一個 float向量。我們怎么把這個向量轉換為一個詞呢？通過一個線性層再加上一個Softmax層實現。

11.1 線性層

線性層是一個簡單的全連接神經網絡，其將解碼器棧的輸出向量映射到一個更長的向量，這個向量被稱為logits向量。

11.2 Softmax層

現在假設我們的模型有 10000 個英文單詞（模型的輸出詞匯表）。因此 logits 向量有 10000 個數字，每個數表示一個單詞的分數。

然后，Softmax 層會把這些分數轉換為概率（把所有的分數轉換為正數，并且加起來等于 1）。最后選擇最高概率所對應的單詞，作為這個時間步的輸出。

12、嵌入層和最后的線性層

在 Transformer 論文，提到一個細節：編碼組件和解碼組件中的嵌入層，以及最后的線性層共享權重矩陣。

需要注意的是：在嵌入層中，會將這個共享權重矩陣乘以

13、正則化操作

為了提高 Transformer 模型的性能，在訓練過程中，使用了以下的正則化操作：

Dropout。對編碼器和解碼器的每個子層的輸出使用Dropout 操作，是在進行殘差連接和層歸一化之前。詞嵌入向量和位置編碼向量執行相加操作后，執行Dropout操作。Transformer 論文中提供的參數

Label Smoothing(標簽平滑)。Transformer論文中提供的參數是。

編輯：黃飛

?

閱讀全文

解碼器(40056) 解碼器(40056)
編碼器(131226) 編碼器(131226)
深度學習(119798) 深度學習(119798)
Transformer(5892) Transformer(5892)
rnn(6792) rnn(6792)

評論

查看更多

相關推薦

為什么transformer性能這么好？Transformer的上下文學習能力是哪來的？

為什么 transformer 性能這么好？它給眾多大語言模型帶來的上下文學習 (In-Context Learning) 能力是從何而來？在人工智能領域里，transformer 已成為深度學習

2023-09-25 12:05:37

736

如何才能高效地進行深度學習模型訓練？

分布式深度學習框架中，包括數據/模型切分、本地單機優化算法訓練、通信機制、和數據/模型聚合等模塊?，F有的算法一般采用隨機置亂切分的數據分配方式，隨機優化算法（例如隨機梯度法）的本地訓練算法，同步或者異步通信機制，以及參數平均的模型聚合方式。

2018-07-09 08:48:22

13609

新一代人工智能新課題：神經網絡的深度解析

基于神經網絡中層信息量指標，分析不同神經網絡模型的處理能力。我們分析比較了四種在 NLP 中常用的深度學習模型，即 BERT， Transformer， LSTM，和 CNN。在各 NLP 任務中，BERT 模型往往表現最好，Transformer 模型次之。

2020-09-11 16:56:24

1160

如何計算transformer模型的參數量

基于transformer模型的，模型結構主要有兩大類：encoder-decoder（代表模型是T5）和decoder-only，具體的，decoder-only結

2023-07-10 09:13:57

5737

機器學習模型評估指標

機器學習模型指標在機器學習建模過程中，針對不同的問題，需采用不同的模型評估指標。

2023-09-06 12:51:50

410

一文詳解Transformer神經網絡模型

Transformer模型在強化學習領域的應用主要是應用于策略學習和值函數近似。強化學習是指讓機器在與環境互動的過程中，通過試錯來學習最優的行為策略。

2024-02-20 09:55:35

352

大語言模型背后的Transformer，與CNN和RNN有何不同

? 電子發燒友網報道（文/李彎彎）近年來，隨著大語言模型的不斷出圈，Transformer這一概念也走進了大眾視野。Transformer是一種非常流行的深度學習模型，最早于2017年由谷歌

2023-12-25 08:36:00

1282

深度學習模型是如何創建的？

具有深度學習模型的嵌入式系統應用程序帶來了巨大的好處。深度學習嵌入式系統已經改變了各個行業的企業和組織。深度學習模型可以幫助實現工業流程自動化，進行實時分析以做出決策，甚至可以預測預警。這些AI

2021-10-27 06:34:15

深度學習中過擬合/欠擬合的問題及解決方案

的數據可以對未來的數據進行推測與模擬，因此都是使用歷史數據建立模型，即使用已經產生的數據去訓練，然后使用該模型去擬合未來的數據。在我們機器學習和深度學習的訓練過程中，經常會出現過擬合和欠擬合的現象。訓練一開始，模型通常會欠擬合，所以會對模型進行優化，然而等到訓練到一定程度的時候，就需要解決過擬合的問題了。

2021-01-28 06:57:47

深度學習存在哪些問題？

深度學習常用模型有哪些？深度學習常用軟件工具及平臺有哪些？深度學習存在哪些問題？

2021-10-14 08:20:47

深度學習技術的開發與應用

時間安排大綱具體內容實操案例三天關鍵點1.強化學習的發展歷程2.馬爾可夫決策過程3.動態規劃4.無模型預測學習5.無模型控制學習6.價值函數逼近7.策略梯度方法8.深度強化學習-DQN算法系列9.

2022-04-21 14:57:39

深度融合模型的特點

深度融合模型的特點，背景深度學習模型在訓練完成之后，部署并應用在生產環境的這一步至關重要，畢竟訓練出來的模型不能只接受一些公開數據集和榜單的檢驗，還需要在真正的業務場景下創造價值，不能只是為了PR而

2021-07-16 06:08:20

Mali GPU支持tensorflow或者caffe等深度學習模型嗎

Mali GPU 支持tensorflow或者caffe等深度學習模型嗎？好像caffe2go和tensorflow lit可以部署到ARM，但不知道是否支持在GPU運行？我希望把訓練

2022-09-16 14:13:01

TDA4對深度學習的重要性

，這比較類似于人腦的運行方式，獲得更多數據后，準確度也會越來越高。TIDL（TI Deep LearningLibrary）是TI平臺基于深度學習算法的軟件生態系統，可以將一些常見的深度學習算法模型

2022-11-03 06:53:11

ad中電流互感器選擇哪個模型

在畫路時，需要用到電流互感器，需要選擇哪個模型呢？一下這些transformer 分別是什么意思？那些在我們設計電路時候比較常用？一些變壓器的表述中“Transformer (Coupled Inductor Model)”的耦合電感模型是什么意思？

2014-12-01 16:32:10

labview+yolov4+tensorflow+openvion深度學習

/1XavCXSIOYaukCzER7eZQ3g提取碼：[hide] 3icg [/hide]隨著機器學習，深度學習的發展，很多人眼很難去直接量化的特征，深度學習可以搞定，這就是深度學習帶給我們的優點和前所未有的吸引力。很多特征

2021-05-10 22:33:46

labview實現深度學習，還在用python？

如何使用labview實現深度學習應用。ok樣本ng樣本這些圖片的特征是：ok與ok，ng與ng之間都有差異，傳統的方法要實現，就需要復雜的算法編程實現，如果用深度學習，則非常簡單。1.準備好樣本庫

2020-07-23 20:33:10

labview測試tensorflow深度學習SSD模型識別物體

安裝labview2019 vision，自帶深度學習推理工具，支持tensorflow模型。配置好python下tensorflow環境配置好object_detection API下載SSD模型

2020-08-16 17:21:38

labview調用深度學習tensorflow模型非常簡單，附上源碼和模型

本帖最后由 wcl86 于 2021-9-9 10:39 編輯 `labview調用深度學習tensorflow模型非常簡單，效果如下，附上源碼和訓練過的模型：[hide][/hide

2021-06-03 16:38:25

matlab的模型變換、模型簡化、模型實現以及模型特性命令

matlab的模型變換、模型簡化、模型實現以及模型特性命令模型變換 C2d 變連續系統為離散系統 C2dm 利用指定方法變連續為離散系統 C2dt 帶一延時變連續為離散系統 D2c 變離散為連續系統

2009-09-22 15:58:13

　　華為云深度學習服務，讓企業智能從此不求人

主要基于人工實現，耗時費力?，F在企業人員基于華為的深度學習服務，自行加載標注好的環境健康安全檢查項目標注圖片，就可以很快生成EHS圖片檢測模型，后續企業進行EHS檢查時，只需要拍攝現場照片，輸入模型

2018-08-02 20:44:09

【NanoPi K1 Plus試用體驗】搭建深度學習框架

，使其更緊湊和更易debug，并提供了擴展的便利性。課程內容基本上是以代碼編程為主，也會有少量的深度學習理論內容。課程會一步一步從Keras環境安裝開始講解，并從最基礎的Keras實現線性回歸

2018-07-17 11:40:31

【詳解】FPGA：深度學習的未來？

（FPGA）提供了另一個值得探究的解決方案。日漸流行的FPGA設計工具使其對深度學習領域經常使用的上層軟件兼容性更強，使得FPGA更容易為模型搭建和部署者所用。FPGA架構靈活，使得研究者能夠在諸如GPU

2018-08-13 09:33:30

什么是深度學習？使用FPGA進行深度學習的好處？

什么是深度學習為了解釋深度學習，有必要了解神經網絡。神經網絡是一種模擬人腦的神經元和神經網絡的計算模型。作為具體示例，讓我們考慮一個輸入圖像并識別圖像中對象類別的示例。這個例子對應機器學習中的分類

2023-02-17 16:56:59

你了解在單GPU上就可以運行的Transformer模型嗎

的鄰居：在深度學習中，注意力是一種機制，它使網絡能夠根據上下文的不同部分與當前時間步長之間的相關性，將注意力集中在上下文的不同部分。transformer模型中存在三種注意機制：圖3：在

2022-11-02 15:19:41

使用全卷積網絡模型實現圖像分割

OpenCv-C++-深度神經網絡（DNN）模塊-使用FCN模型實現圖像分割

2019-05-28 07:33:35

全網唯一一套labview深度學習教程：tensorflow+目標檢測：龍哥教你學視覺—LabVIEW深度學習教程

，基于深度學習的缺陷檢測已經應用于金屬固件、布匹絲織物、建筑裂紋、鋼筋裂紋等多個領域，并取得了不錯的成果。下面將結合具體案例介紹其實現方法。3.1裂紋缺陷檢測[1]建筑材料（如磁瓦等）的外觀變化（如

2020-08-10 10:38:12

動態分配多任務資源的移動端深度學習框架

需求和準確率之間的權衡是固定的。因此，第一大挑戰在于設計一個能讓深度學習模型提供靈活的資源-準確率權衡的方案。一種樸素的方法是在移動系統中安裝所有具備可能資源-準確率權衡的模型變體。然而，由于這些模型

2018-10-31 16:32:24

卷積神經網絡模型發展及應用

卷積神經網絡模型發展及應用轉載****地址：http://fcst.ceaj.org/CN/abstract/abstract2521.shtml深度學習是機器學習和人工智能研究的最新趨勢，作為一個

2022-08-02 10:39:39

如何實現嵌入式平臺與深度學習的智能氣象監測儀器的設計

基于嵌入式平臺與深度學習的智能氣象監測儀器設計方案一、概述二、整體框架三、人工智能部分：四、嵌入式部分4.1安卓主控4.2協處理器五、人機交互一、概述以目前常見移動設備的存儲和計算能力，是不可能實現

2021-11-09 09:14:46

如何使用MATLAB幫助相關人員執行深度學習任務

MATLAB支持的模型有哪些呢？如何使用MATLAB幫助相關人員執行深度學習任務呢？

2021-11-22 07:48:19

探索一種降低ViT模型訓練成本的方法

（1 GPU）和時間（24小時）資源下從頭開始訓練ViT模型。首先，提出了一種向ViT架構添加局部性的有效方法。其次，開發了一種新的圖像大小課程學習策略，該策略允許在訓練開始時減少從每個圖像中提

2022-11-24 14:56:31

機器學習簡介與經典機器學習算法人才培養

神經網絡訓練方法卷積神經網絡介紹經典網絡結構介紹章節目標：深入了解神經網絡的組成、訓練和實現，掌握深度空間特征分布等關鍵概念，為深度遷移學習奠定知識基礎三、遷移學習基礎遷移學習緒論基于樣本的遷移學習

2022-04-28 18:56:07

遷移學習

神經網絡訓練方法卷積神經網絡介紹經典網絡結構介紹章節目標：深入了解神經網絡的組成、訓練和實現，掌握深度空間特征分布等關鍵概念，為深度遷移學習奠定知識基礎三、遷移學習基礎遷移學習緒論基于樣本的遷移學習

2022-04-21 15:15:11

部署基于嵌入的機器學習模型

1、如何在生產中部署基于嵌入的機器學習模型　　由于最近大量的研究，機器學習模型的性能在過去幾年里有了顯著的提高。雖然這些改進的模型開辟了新的可能性，但是它們只有在可以部署到生產應用中時才開始提供真正

2022-11-02 15:09:52

基于模型的動態測試工具TPT

嵌入式系統的基于模型的動態測試工具，支持眾多業內主流的工具平臺和測試環境，可應用于整個嵌入式軟件開發周期，實現各種異構環境下的自動化測試。無論是在測試建模，測試環境

2022-07-25 15:35:26

深度學習與大模型Transformer

人工智能

恬靜簡樸1發布于 2023-07-18 16:57:22

大模型Transformer工作原理

大模型

恬靜簡樸1發布于 2023-07-18 17:14:58

深度學習算法聯合綜述

關于深度學習神經網絡算法的介紹，包含有對幾種神經網絡模型的詳細描述

2017-07-10 16:49:12

4

基于深度學習的多尺幅深度網絡監督模型

針對場景標注中如何產生良好的內部視覺信息表達和有效利用上下文語義信息兩個至關重要的問題，提出一種基于深度學習的多尺度深度網絡監督模型。與傳統多尺度方法不同，模型主要由兩個深度卷積網絡組成：首先網絡

2017-11-28 14:22:10

0

人工智能--深度學習模型

我們知道機器學習模型有：生成模型（GenerativeModel）和判別模型（Discriminative Model）。判別模型需要輸入變量x，通過某種模型來預測p（y｜x）。生成模型是給定某種隱含信息，來隨機產生觀測數據。

2018-06-29 18:37:00

5523

隨機塊模型學習算法

的一個主要挑戰．提出一種精細隨機塊模型及其快速學習算法，該學習方法基于提出的模型與最小消息長度推導出一個新成本函數，利用期望最大化參數估計方法，實現了邊評價模型邊估計參數的并行學習策略。以此方式顯著降低隨機塊模

2018-01-09 18:20:04

1

模型驅動深度學習的標準流程與學習方法解析

模型驅動的深度學習方法近年來，深度學習在人工智能領域一系列困難問題上取得了突破性成功應用。

2018-01-24 11:30:13

4608

學習模型指導駕駛過程分為五步

與人類用雙眼去觀察路面、用手去操控方向盤類似，無人車用一排攝像機去感知環境，用深度學習模型指導駕駛。大體來說，這個過程分為五步:記錄環境數據分析并處理數據構建理解環境的模型訓練模型精煉出可以隨時

2018-04-26 22:01:00

757

一種新的目標分類特征深度學習模型

為提高低配置計算環境中的視覺目標實時在線分類特征提取的時效性和分類準確率，提出一種新的目標分類特征深度學習模型。根據高時效性要求，選用分類器模型離線深度學習的策略，以節約在線訓練時間。針對網絡深度

2018-03-20 17:30:42

0

根據美團“猜你喜歡”來深度學習排序模型實踐

本文將主要介紹深度學習模型在美團平臺推薦排序場景下的應用和探索。

2018-04-02 09:35:24

6070

關于如何從零開始構建深度學習項目的詳細教程

第一部分：啟動一個深度學習項目第二部分：創建一個深度學習數據集第三部分：設計深度模型第四部分：可視化深度網絡模型及度量指標第五部分：深度學習網絡中的調試第六部分：改善深度學習模型性能及網絡調參

2018-04-19 15:21:23

3520

基于深度學習模型的點云目標檢測及ROS實現

近年來，隨著深度學習在圖像視覺領域的發展，一類基于單純的深度學習模型的點云目標檢測方法被提出和應用，本文將詳細介紹其中一種模型——SqueezeSeg，并且使用ROS實現該模型的實時目標檢測。

2018-11-05 16:47:29

17181

針對線性回歸模型和深度學習模型，介紹了確定訓練數據集規模的方法

具體來看，對于傳統的機器學習算法，模型的表現先是遵循冪定律（power law），之后趨于平緩；而對于深度學習，該問題還在持續不斷地研究中，不過圖一為目前較為一致的結論，即隨著數據規模的增長，深度

2019-05-05 11:03:31

5747

深度學習模型壓縮與加速綜述

目前在深度學習領域分類兩個派別，一派為學院派，研究強大、復雜的模型網絡和實驗方法，為了追求更高的性能；另一派為工程派，旨在將算法更穩定、高效的落地在硬件平臺上，效率是其追求的目標。復雜的模型固然具有

2019-06-08 17:26:00

4836

回顧3年來的所有主流深度學習CTR模型

微軟于2016年提出的Deep Crossing可以說是深度學習CTR模型的最典型和基礎性的模型。如圖2的模型結構圖所示，它涵蓋了深度CTR模型最典型的要素，即通過加入embedding層將稀疏特征轉化為低維稠密特征，用stacking layer

2019-07-18 14:33:16

5870

深度學習模型小型化處理的五種方法

現在深度學習模型開始走向應用，因此我們需要把深度學習網絡和模型部署到一些硬件上，而現有一些模型的參數量由于過大，會導致在一些硬件上的運行速度很慢，所以我們需要對深度學習模型進行小型化處理。

2020-01-28 17:40:00

3658

晶心科技和Deeplite攜手合作高度優化深度學習模型解決方案

晶心科技今日宣布將攜手合作，在基于AndeStar? V5架構的晶心RISC-V CPU核心上配置高度優化的深度學習模型，使AI深度學習模型變得更輕巧、快速和節能。

2019-12-31 16:30:11

1002

機器學習模型在生產中退化的原因

由于意外的機器學習模型退化導致了幾個機器學習項目的失敗，我想分享一下我在機器學習模型退化方面的經驗。實際上，有很多關于模型創建和開發階段的宣傳，而不是模型維護。

2020-05-04 12:11:00

1615

如何使用深度學習實現語音聲學模型的研究

的分析識別更是研究的重中之重。近年來深 10 度學習模型的廣泛發展和計算能力的大幅提升對語音識別技術的提升起到了關鍵作用。本文立足于語音識別與深度學習理論緊密結合，針對如何利用深度學習模型搭建區分能力更強魯棒性更

2020-05-09 08:00:00

41

Google科學家設計簡化稀疏架構Switch Transformer，語言模型的參數量可擴展至 1.6 萬億

（GPT-3 是 1750 億）。在計算資源相同的情況下，Switch Transformer 的訓練速度可以達到 T5 模型的 4-7 倍。在深度學習領域，模型通常會對所有輸入重用相同的參數

2021-01-13 16:50:49

2638

深度學習模型的對抗攻擊及防御措施

深度學習作為人工智能技術的重要組成部分，被廣泛應用于計算機視覺和自然語言處理等領域。盡管深度學習在圖像分類和目標檢測等任務中取得了較好性能，但是對抗攻擊的存在對深度學習模型的安全應用構成了潛在威脅

2021-03-12 13:45:53

74

Transformer模型的多模態學習應用

隨著Transformer在視覺中的崛起，Transformer在多模態中應用也是合情合理的事情，甚至以后可能會有更多的類似的paper。

2021-03-25 09:29:59

9836

基于深度學習的疲勞駕駛檢測算法及模型

為實現復雜駕駛環境下駕駛人員疲勞狀態識別與預警，提出基于深度學習的疲勞駕駛檢測算法。利用基于 shuffle- channel思想的 MTCNN模型檢測常規攝像頭實時采集的駕駛人員人臉圖像

2021-03-30 09:17:55

23

綜述深度學習的卷積神經網絡模型應用及發展

深度學習是機器學習和人工智能研究的最新趨勢，作為一個十余年來快速發展的嶄新領域，越來越受到研究者的關注。卷積神經網絡（CNN）模型是深度學習模型中最重要的一種經典結構，其性能在近年來深度學習任務

2021-04-02 15:29:04

20

深度模型中的優化與學習課件下載

深度模型中的優化與學習課件下載

2021-04-07 16:21:01

3

基于深度學習的圖像修復模型及實驗對比

深度學習技術在解決¨大面積缺失圖像修復”問題時具有重要作用并帶來了深遠影響，文中在簡要介紹傳統圖像修復方法的基礎上，重點介紹了基于深度學習的修復模型，主要包括模型分類、優缺點對比、適用范圍和在常用數據集上的

2021-04-08 09:38:00

20

深度神經網絡模型的壓縮和優化綜述

數據集上的表現非常卓越。然而，由于其計算量大、存儲成本高、模型復雜等特性，使得深度學習無法有效地應用于輕量級移動便攜設備。因此，壓縮、優化深度學習模型成為目前硏究的熱點。當前主要的模型壓縮方法有模型裁剪、輕

2021-04-12 10:26:59

20

模型化深度強化學習應用研究綜述

深度強化學習（DRL）作為機器學習的重要分攴，在 Alphago擊敗人類后受到了廣泛關注。DRL以種試錯機制與環境進行交互，并通過最大化累積獎賞最終得到最優策略。強化學習可分為無模型強化學習和模型

2021-04-12 11:01:52

9

基于預訓練模型和長短期記憶網絡的深度學習模型

作為模型的初始化詞向量。但是，隨機詞向量存在不具備語乂和語法信息的缺點;預訓練詞向量存在¨一詞-乂”的缺點，無法為模型提供具備上下文依賴的詞向量。針對該問題，提岀了一種基于預訓練模型BERT和長短期記憶網絡的深度學習

2021-04-20 14:29:06

19

詳談機器學習模型算法的質量保障方案

近年來，機器學習模型算法在越來越多的工業實踐中落地。在滴滴，大量線上策略由常規算法遷移到機器學習模型算法。如何搭建機器學習模型算法的質量保障體系成為質量團隊急需解決的問題之一。本文整體介紹了機器學習模型算法的質量保障方案，并進一步給出了滴滴質量團隊在機器學習模型效果評測方面的部分探索實踐。

2021-05-05 17:08:00

2010

改進的多尺度深度網絡手勢識別模型

基于傳統的淺層學習網絡由于過度依賴于人工選擇手勢特征，因此不能實時適應復雜多變的自然場景。在卷積神經網絡架構的基礎上，提岀了一種改進的多尺度深度網絡手勢識別模型，該模型能夠利用卷積層自動學習手勢特征

2021-05-29 14:44:10

8

什么？不用GPU也能加速你的YOLOv3深度學習模型

解決煩惱，讓你的深度學習模型效率“一節更比七節強”！ Neural Magic是專門研究深度學習的稀疏方法的公司，這次他們發布了教程：用recipe稀疏化YOLOv3。聽起來有點意思啊，讓我們來看看是怎么實現的~ 稀疏化的YOLOv3 稀疏化的YOLOv3使用剪枝（prune）和量化（qua

2021-06-10 15:33:02

1975

使用跨界模型Transformer來做物體檢測！

用了Transformer 架構開發的一個目標檢測模型。在這篇文章中，我將通過分析DETR架構的內部工作方式來幫助提供一些關于它的直覺。下面，我將解釋一些結構，但是如果你只是想了解如何使用模型，可以直接跳到代碼部分

2021-06-10 16:04:39

1913

基于評分矩陣與評論文本的深度學習模型

基于評分矩陣與評論文本的深度學習模型

2021-06-24 11:20:30

58

基于深度學習的文本主題模型研究綜述

基于深度學習的文本主題模型研究綜述

2021-06-24 11:49:18

68

結合基擴展模型和深度學習的信道估計方法

結合基擴展模型和深度學習的信道估計方法

2021-06-30 10:43:39

62

移植深度學習算法模型到海思AI芯片

本文大致介紹將深度學習算法模型移植到海思AI芯片的總體流程和一些需要注意的細節。海思芯片移植深度學習算法模型，大致分為模型轉換，...

2022-01-26 19:42:35

11

Microsoft使用NVIDIA Triton加速AI Transformer模型應用

Microsoft 的目標是，通過結合使用 Azure 與 NVIDIA GPU 和 Triton 推理軟件，率先將一系列強大的 AI Transformer 模型投入生產用途。

2022-04-02 13:04:21

1456

如何為深度學習模型設計審計方案

　　在本文中，我們開發了一個深度學習（ DL ）模型審計框架。越來越多的人開始關注 DL 模型中的固有偏見，這些模型部署在廣泛的環境中，并且有多篇關于部署前審核 DL 模型的必要性的新聞文章。我們的框架將這個審計問題形式化，我們認為這是在部署期間提高 DL 模型的安全性和道德使用的一個步驟。

2022-04-19 14:50:24

1083

超詳細配置教程：用Windows電腦訓練深度學習模型

雖然大多數深度學習模型都是在 Linux 系統上訓練的，但 Windows 也是一個非常重要的系統，也可能是很多機器學習初學者更為熟悉的系統。要在 Windows 上開發模型，首先當然是配置開發環境

2022-11-08 10:57:44

1101

深度學習模型的部署方法

當我們辛苦收集數據、數據清洗、搭建環境、訓練模型、模型評估測試后，終于可以應用到具體場景，但是，突然發現不知道怎么調用自己的模型，更不清楚怎么去部署模型！這也是今天“計算機視覺研究院”要和大家

2022-12-01 11:30:36

1684

ChatGPT反思大語言模型的技術精要

在Bert和GPT模型出現之前，NLP領域流行的技術是深度學習模型，而NLP領域的深度學習，主要依托于以下幾項關鍵技術：以大量的改進LSTM模型及少量的改進CNN模型作為典型的特征抽取

2023-01-11 14:33:51

1728

大模型為什么是深度學習的未來？

與傳統機器學習相比，深度學習是從數據中學習，而大模型則是通過使用大量的模型來訓練數據。深度學習可以處理任何類型的數據，例如圖片、文本等等；但是這些數據很難用機器完成。大模型可以訓練更多類別、多個級別的模型，因此可以處理更廣泛的類型。另外：在使用大模型時，可能需要一個更全面或復雜的數學和數值計算的支持。

2023-02-16 11:32:37

1605

AI大語言模型的原理、演進及算力測算專題報告

GPT是基于Transformer架構的大語言模型，近年迭代演進迅速。構建語言模型是自然語言處理中最基本和最重要的任務之一。GPT是基于Transformer架構衍生出的生成式預訓練的單向語言模型，通過對大量語料數據進行無監督學習

2023-04-28 10:01:59

585

基于transformer的編碼器-解碼器模型的工作原理

與基于 RNN 的編碼器-解碼器模型類似，基于 transformer 的編碼器-解碼器模型由一個編碼器和一個解碼器組成，且其編碼器和解碼器均由殘差注意力模塊 (residual attention blocks) 堆疊而成。

2023-06-11 14:17:34

1145

基于Transformer的大型語言模型（LLM）的內部機制

工作原理變得越來越重要。更好地理解這些模型是如何做出決策的，這對改進模型和減輕其故障（如幻覺或推理錯誤）至關重要。眾所周知，最近 LLM 成功的一個重要因素是它們能夠從上下文中學習和推理。LLM 對這些上下文的學習能力通常歸功于 Transformer 架構，特別

2023-06-25 15:08:49

991

2D Transformer 可以幫助3D表示學習嗎？

預訓練的2D圖像或語言Transformer：作為基礎Transformer模型，具有豐富的特征表示能力。作者選擇了先進的2D Transformer模型作為基礎模型，例如Vision Transformers (ViTs) 或者語言模型（如BERT）。

2023-07-03 10:59:43

387

transformer模型詳解：Transformer 模型的壓縮方法

?動機&背景 Transformer 模型在各種自然語言任務中取得了顯著的成果，但內存和計算資源的瓶頸阻礙了其實用化部署。低秩近似和結構化剪枝是緩解這一瓶頸的主流方法。然而，作者通過分析發現，結構化

2023-07-17 10:50:43

1172

AI大模型和小模型是什么？AI大模型和小模型的區別

　　隨著人工智能的不斷發展和應用，機器學習模型的大小越來越成為一個重要的問題。在機器學習中，我們通常將模型分為兩類：大模型和小模型。本文將介紹AI大模型和小模型是什么，并分析它們各自的優缺點以及區別。

2023-08-08 16:55:33

4555

深度學習的定義和特點深度學習典型模型介紹

深度學習（Deep Learning）是一種基于人工神經網絡的機器學習算法，其主要特點是模型由多個隱層組成，可以自動地學習特征，并進行預測或分類。該算法在計算機視覺、語音識別、自然語言處理、推薦系統和數據挖掘等領域被廣泛應用，成為機器學習領域的一種重要分支。

2023-08-21 18:22:53

929

軟件漏洞檢測場景中的深度學習模型實證研究

近年來，深度學習模型（DLM）在軟件漏洞檢測領域的應用探索引起了行業廣泛關注，在某些情況下，利用DLM模型能夠獲得超越傳統靜態分析工具的檢測效果。然而，雖然研究人員對DLM模型的價值預測讓人驚嘆，但很多人對這些模型本身的特性并不十分清楚。

2023-08-24 10:25:10

344

盤古大模型與ChatGPT的模型基礎架構

華為盤古大模型以Transformer模型架構為基礎，利用深層學習技術進行訓練。模型的每個數量達到2.6億個，是目前世界上最大的漢語預備訓練模型之一。這些模型包含許多小模型，其中最大的模型包含1億4千萬個參數。

2023-09-05 09:55:56

1229

深度學習模型部署與優化：策略與實踐；L40S與A100、H100的對比分析

深度學習、機器學習、生成式AI、深度神經網絡、抽象學習、Seq2Seq、VAE、GAN、GPT、BERT、預訓練語言模型、Transformer、ChatGPT、GenAI、多模態大模型、視覺大模型

2023-09-22 14:13:09

607

基于深度學習的情感語音識別模型優化策略

基于深度學習的情感語音識別模型的優化策略，包括數據預處理、模型結構優化、損失函數改進、訓練策略調整以及集成學習等方面的內容。

2023-11-09 16:34:14

227

Neuro-T：零代碼自動深度學習訓練平臺

友思特 Neuro-T為傳統的深度學習視覺檢測方案提供了“自動深度學習”的解決方案，結合自動標注功能，一鍵生成高性能視覺檢測模型，無需AI領域專業知識即可創建深度學習視覺檢測模型。

2023-11-24 17:58:33

242

深度學習如何訓練出好的模型

算法工程、數據派THU深度學習在近年來得到了廣泛的應用，從圖像識別、語音識別到自然語言處理等領域都有了卓越的表現。但是，要訓練出一個高效準確的深度學習模型并不容易。不僅需要有高質量的數據、合適的模型

2023-12-07 12:38:24

547

如何基于深度學習模型訓練實現圓檢測與圓心位置預測

Hello大家好，今天給大家分享一下如何基于深度學習模型訓練實現圓檢測與圓心位置預測，主要是通過對YOLOv8姿態評估模型在自定義的數據集上訓練，生成一個自定義的圓檢測與圓心定位預測模型

2023-12-21 10:50:05

529

如何基于深度學習模型訓練實現工件切割點位置預測

Hello大家好，今天給大家分享一下如何基于深度學習模型訓練實現工件切割點位置預測，主要是通過對YOLOv8姿態評估模型在自定義的數據集上訓練，生成一個工件切割分離點預測模型

2023-12-22 11:07:46

259

如何優化深度學習模型?

因為大部分人使用的模型都是預訓練模型，使用的權重都是在大型數據集上訓練好的模型，當然不需要自己去初始化權重了。只有沒有預訓練模型的領域會自己初始化權重，或者在模型中去初始化神經網絡最后那幾個全連接層的權重。

2024-01-29 14:25:06

113

基于Transformer模型的壓縮方法

基于Transformer架構的大型模型在人工智能領域中發揮著日益重要的作用，特別是在自然語言處理（NLP）和計算機視覺（CV）領域。

2024-02-22 16:27:19

211

已全部加載完成

亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看

<acronym id="s8ci2"><small id="s8ci2"></small></acronym>

<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>

<acronym id="s8ci2"></acronym>

<acronym id="s8ci2"><center id="s8ci2"></center></acronym>