<acronym id="s8ci2"><small id="s8ci2"></small></acronym>

<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>

<acronym id="s8ci2"></acronym>

<acronym id="s8ci2"><center id="s8ci2"></center></acronym>

搜索歷史

清空

搜索熱詞

0

聊天消息
系統消息
評論與回復

查看更多

查看更多

查看更多

登錄后你可以

下載海量資料
學習在線課程
觀看技術視頻
寫文章/發帖/加入社區

創作中心

發布

創作活動

完善資料讓更多小伙伴認識你，還能領取20積分哦，立即完善>

3天內不再提示

論文遭首屆ICLR拒稿、代碼被過度優化，word2vec作者Tomas Mikolov分享背后的故事

除了表達自己獲得 NeurIPS 2023 時間檢驗獎的感想之外，Tomas Mikolo 還對 NLP 和 ChatGPT 的現狀給出了自己的一些思考。

幾天前，NeurIPS 2023 公布了獲獎論文，其中時間檢驗獎頒給了十年前的 NeurIPS 論文「Distributed Representations of Words and Phrases and their Compositionality」。這項工作引入了開創性的詞嵌入技術 word2vec，展示了從大量非結構化文本中學習的能力，推動了自然語言處理新時代的到來。

這篇論文由當時都還在谷歌的 Tomas Mikolov、Ilya Sutskever、Kai Chen、Greg Corrado、Jeffrey Dean 等人撰寫，被引量超過 4 萬次。

不過，Word2vec 首篇論文是 Tomas Mikolov 等同一作者的「Efficient Estimation of Word Representations in Vector Space」。這篇論文的引用量也已經接近 4 萬。

論文地址：https://arxiv.org/abs/1301.3781

近日，Tomas Mikolov 分享了論文背后更多的故事，包括被首屆 ICLR 拒稿以及之后的進展等。

圖源：https://www.facebook.com/tomas.mikolov

以下為原貼內容，我們做了不改變原意的整理。

我非常高興 word2vec 論文獲得了 NeurIPS 2023 時間檢驗獎，這是我獲得的第一個最佳論文類型的獎項。實際上，word2vec 原始論文在 2013 年首屆 ICLR 會議被拒絕接收了（盡管接收率很高），這讓我想到審稿人預測論文的未來影響是多么困難。

這些年，我聽到了很多關于 word2vec 的評論，正面的還有負面的，但至今沒有在網絡上認真地發表過評論。我覺得研究界正在不斷地被一些研究人員的 PR 式宣傳淹沒，他們通過這樣的方式獲得他人的論文引用和注意力。我不想成為其中的一部分，但 10 年后，分享一些關于論文背后的故事可能會很有趣。

我經常聽到的一個評論是，代碼很難理解，以至于有些人認為是我故意地讓代碼不可讀。但我沒有那么邪惡，代碼最終被過度優化了，因為我等了好幾個月才被批準發布它。我也試圖讓代碼更快更短?；叵肫饋?，如果當時團隊中沒有 Greg Corrado 和 Jeff Dean，我懷疑自己是否會獲得批準。我認為 word2vec 可能是谷歌開源的第一個廣為人知的 AI 項目。

在 word2vec 發布一年多后，斯坦福 NLP 小組的 GloVe 項目也引發了很大爭議。雖然該項目從我們的項目中復刻了很多技巧，但總感覺 GloVe 倒倒退了一步：速度較慢，還需要更多內存，生成的向量質量比 word2vec 低。然而，GloVe 是基于在更多數據上預訓練的詞向量發布的，因而很受歡迎。之后，我們在 fastText 項目中修復了相關問題，在使用相同數據進行訓練時，word2vec 比 GloVe 好得多。

盡管 word2vec 是我被引用最多的論文，但我從未認為它是我最有影響力的項目。實際上，word2vec 代碼最初只是我之前項目 RNNLM 的一個子集，我感覺 RNNLM 很快就被人們遺忘了。但在我看來，它應該和 AlexNet 一樣具有革命性意義。

在這里，我列舉一些在 2010 年 RNNLM 中首次展示的想法：遞歸神經網絡的可擴展訓練、首次通過神經語言模型生成文本、動態評估、字符和子詞級別的神經語言建模、神經語言模型自適應（現在稱為微調）、首個公開可用的 LM 基準。

我發布了第一項研究，顯示當一切正確完成時，訓練數據越多，神經網絡就能比 n-gram 語言模型更勝一籌。這在今天聽起來是顯而易見的，但在當時這被廣泛認為是不可能的，甚至大多數谷歌員工都認為，數據越多，除了 n-gram 和平滑技術外，其他任何工作都是徒勞的。

我很幸運能在 2012 年加入谷歌 Brain 團隊，那里有很多大規模神經網絡的「信徒」，他們允許我參與 word2vec 項目，展示了它的潛力。但我不想給人留下到這里就足夠完美的印象。在 word2vec 之后，作為后續項目，我希望通過改進谷歌翻譯來普及神經語言模型。我確實與 Franz Och 和他的團隊開始了合作，在此期間我提出了幾種模型，這些模型可以補充基于短語的機器翻譯，甚至可以取代它。

其實在加入谷歌之前，我就提出了一個非常簡單的想法，通過在句子對（比如法語 - 英語）上訓練神經語言模型來實現端到端的翻譯，然后在看到第一句話后使用生成模式生成翻譯。這對短句子效果很好，但在長句子上就不那么奏效了。

我在谷歌 Brain 內部多次討論過這個項目，主要是與 Quoc 和 Ilya，在我轉到 Facebook AI 后他們接手了這個項目。我感到非常意外的是，他們最終以「從序列到序列（sequence to sequence）」為名發表了我的想法，不僅沒有提到我是共同作者，而且在長長的致謝部分提及了谷歌 Brain 中幾乎所有的人，唯獨沒有我。那時是資金大量涌入人工智能領域的時期，每一個想法都價值連城?？吹?a target="_blank">深度學習社區迅速變成某種權力的游戲，我感到很悲哀。

總之，多年來人們對語言模型的興趣增長緩慢，但自從 ChatGPT 發布以來，人們對它的興趣呈爆炸式增長，看到這么多人終于將人工智能和語言聯系在一起，真的很酷。我們還沒有到達那個階段，我個人認為我們需要有新的發現來突破神經模型的泛化極限。我們無疑生活在一個激動人心的時代。但是，讓我們不要過分信任那些想要壟斷基于數十位甚至數百位科學家辛勤工作的技術，同時聲稱這一切都是為了人類的利益的人。

不過，Tomas Mikolov 的發言也讓人感嘆，他也要步 LSTM 之父 Jürgen Schmidhuber 的后塵嗎？

圖源：https://twitter.com/agihippo/status/1736107652407849208

你們怎么看呢？

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

代碼

代碼

+關注

關注
30

文章
4557

瀏覽量
66826
nlp

nlp

+關注

關注
1

文章
464

瀏覽量
21829
ChatGPT

ChatGPT

+關注

關注
27

文章
1411

瀏覽量
4784

原文標題：論文遭首屆ICLR拒稿、代碼被過度優化，word2vec作者Tomas Mikolov分享背后的故事

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關注！文章轉載請注明出處。

評論

相關推薦

KEIL怎么禁止某個函數/某段代碼被編譯器優化？

有沒有大佬知道，KEIL怎么禁止某個函數/某段代碼被編譯器優化？

發表于 04-10 08:17

淺談代碼優化與過度設計

本文記錄了作者從“代碼優化”到“過度設計”的典型思考過程，這過程中涉及了很多Java的語法糖及設計模式的東西，很典型，能啟發思考，遂記錄下來。有一天Review師妹的

的頭像

發表于 01-19 10:05 ?316次閱讀

淺談<b class='flag-5'>代碼</b><b class='flag-5'>優化</b>與<b class='flag-5'>過度</b>設計

ICLR 2024高分投稿：用于一般時間序列分析的現代純卷積結構

這篇是 ICLR 上用 TCN 來做一般的時間序列分析的論文，在 Rebuttal 之后的分數為 888，算得上是時間序列領域相關的論文中最高分那一檔了。本文提出了一個 ModernTCN 的模型

的頭像

發表于 12-18 16:05 ?454次閱讀

<b class='flag-5'>ICLR</b> 2024高分投稿：用于一般時間序列分析的現代純卷積結構

Omniverse 資訊速遞 | 應用案例、創作者故事、OpenUSD 最新視頻等你來解鎖！

在本期「Omniverse 資訊速遞」中，Omniverse 用戶和開發者將了解到： Omniverse 應用案例與創作者故事 OpenUSD 最新視頻 Omniverse?應用案例與創作者

的頭像

發表于 12-04 20:20 ?350次閱讀

Omniverse 資訊速遞 | 應用案例、創<b class='flag-5'>作者</b><b class='flag-5'>故事</b>、OpenUSD 最新視頻等你來解鎖！

Omniverse 資訊速遞 | 應用案例、創作者故事、行業觀點等你來解鎖！

在本期「Omniverse 資訊速遞」中，Omniverse 用戶和開發者將了解到： Omniverse 應用案例與創作者故事行業觀點 Omniverse 應用案例與創作者故事

的頭像

發表于 10-09 19:55 ?308次閱讀

Omniverse 資訊速遞 | 應用案例、創<b class='flag-5'>作者</b><b class='flag-5'>故事</b>、行業觀點等你來解鎖！

如何使用Python讀取寫入Word文件

Word 文件。 1、安裝 pip install python-docx 02 讀寫 1、讀取使用 python-docx 庫可以輕松讀取 Word 文件。以下代碼演示了如何讀取一個名為

的頭像

發表于 09-27 17:03 ?1462次閱讀

嵌入式代碼優化技巧

最近工作中,我通過層層優化重復代碼 ,最后抽出個通用模板.因此跟大家分享一下優化以及思考的過程。我會先造一個相似的例子,然后一步步帶大家如何優化哈 ,看完一定會有幫助的。

發表于 09-11 11:43 ?178次閱讀

嵌入式<b class='flag-5'>代碼</b><b class='flag-5'>優化</b>技巧

優化重復冗余代碼的8種方式

日常開發中，我們經常會遇到一些重復冗余的代碼。大家都知道重復代碼不好，它主要有這些缺點：可維護性差、可讀性差、增加錯誤風險等等。最近呢，我優化了一些系統中的重復代碼，用了好幾種的

的頭像

發表于 09-11 09:47 ?361次閱讀

transformer原理解析

這些embedding可以使用谷歌Word2vec (單詞的矢量表示) 找到。在我們的數值示例中，我們將假設每個單詞的embedding向量填充有 (0和1) 之間的隨機值。

的頭像

發表于 09-06 14:44 ?718次閱讀

transformer原理解析

Arm Neoverse? V2核心軟件優化指南

本文檔描述了影響軟件性能的Neoverse V2核心微體系結構的各個方面。微體系結構細節僅限于對軟件優化有用的細節。文檔僅涉及Neoverse V2核心的軟件可見行為，而不涉及該行為背后

發表于 08-24 06:29

兼顧內存和速度的C語言代碼優化的方法

在本篇文章中，我(指原作者)收集了很多經驗和方法。應用這些經驗和方法，可以幫助我們從執行速度和內存使用等方面來優化C語言代碼。

發表于 07-24 15:44 ?282次閱讀

代碼如何優化掉多余的if/else?

觀點一（靈劍）：前期迭代懶得優化，來一個需求，加一個if，久而久之，就串成了一座金字塔。當代碼已經復雜到難以維護的程度之后，只能狠下心重構優化。那，有什么方案可以優雅的優化掉這些多

發表于 06-22 10:01 ?485次閱讀

PyTorch教程-15.4. 預訓練word2vec

15.4. 預訓練word2vec? Colab [火炬]在 Colab 中打開筆記本 Colab [mxnet] Open the notebook in Colab Colab

發表于 06-05 15:44 ?211次閱讀

PyTorch教程15.4之預訓練word2vec

電子發燒友網站提供《PyTorch教程15.4之預訓練word2vec.pdf》資料免費下載

發表于 06-05 10:58 ?0次下載

Omniverse 資訊速遞 | SIGGRAPH 亮點搶先看、相關賽事、應用案例與創作者故事、教程視頻等你來解鎖！

在本期「Omniverse 資訊速遞」中，Omniverse 用戶和開發者將了解到： SIGGRAPH 亮點搶先看 Omniverse 相關賽事 Omniverse 應用案例與創作者故事

發表于 05-15 23:40 ?351次閱讀

深度學習自然語言處理
專欄

0 文章 0 閱讀 0 粉絲 0 點贊

關注個人主頁

Hot 一個給NLP領域帶來革新的預訓練語言大模型Bert
Hot 推薦一些翻譯英文文獻比較準確的軟件

New 什么是RAG，RAG學習和實踐經驗
New MOE與MOT：提升LLM效能的關鍵策略比較

精選推薦
更多

文章

資料

帖子

以全棧智算擁抱生態，為AIGC種一棵向上生長的巨榕

腦極體
7小時前

209 閱讀

HarmonyOS開發案例：【動效】

jf_46214456
15小時前

204 閱讀

成為榕樹：解析華為的智能之路

腦極體
4小時前

216 閱讀

鴻蒙OpenHarmony【標準系統燒錄】（基于RK3568開發板）

jf_46214456
21小時前

345 閱讀

通過ModbusRS485轉Profinet網關搭建匯川變頻器與PLC的協議轉換通道

gongkong666
22小時前

412 閱讀

Protel DXP新手圖解教程

wfcchun
2337

免費

0下載

基于51單片機的超聲波避障小車設計（含Proteus仿真）

路過秋天
0.58 MB

免費

113下載

Method Draw基于Web的矢量繪圖應用程序

申根換
0.75 MB

免費

2下載

FS-Blog基于Spring Boot的個人博客

李微波
5.07 MB

免費

1下載

PoE-PD 接口控制器評估板NCP1095GEVB數據手冊

1.31 MB

免費

0下載

如何給全志R329開發板修改WiFi/BT模組

文小二
13小時前

50 閱讀

12個電路+10個知識點，講透了開關模式下的電源電流檢測！

時見棲鴉
13小時前

133 閱讀

飛凌嵌入式ElfBoard ELF 1板卡-在ELF 1開發環境中使用QT Creator進行遠程調試

jf_13411809
13小時前

135 閱讀

LabVIEW程序控制提示單位錯誤

jf_69130342
1天前

351 閱讀

OpenHarmony實戰開發-swiper開發指導

jf_71304091
1天前

120 閱讀

推薦專欄
更多

華秋（原“華強聚豐”）：

電子發燒友

華秋開發

華秋電路(原"華強PCB")

華秋商城(原"華強芯城")

華秋智造

My ElecFans

APP
網站地圖

設計技術

可編程邏輯

電源/新能源

MEMS/傳感技術

測量儀表

嵌入式技術

制造/封裝

模擬技術

RF/無線

接口/總線/驅動

處理器/DSP

EDA/IC設計

存儲技術

光電顯示

EMC/EMI設計

連接器

行業應用

LEDs

汽車電子

音視頻及家電

通信網絡

醫療電子

人工智能

虛擬現實

可穿戴設備

機器人

安全設備/系統

軍用/航空電子

移動通信

工業控制

便攜設備

觸控感測

物聯網

智能電網

區塊鏈

新科技

特色內容

專欄推薦

學院

設計資源

設計技術

電子百科

電子視頻

元器件知識

工具箱

VIP會員

最新技術文章

社區

小組

論壇

問答

評測試用

企業服務

產品

資料

文章

方案

企業

供應鏈服務

硬件開發

華秋電路

華秋商城

華秋智造

nextPCB

BOM配單

媒體服務

網站廣告

在線研討會

活動策劃

新聞發布

新品發布

小測驗

設計大賽

華秋

關于我們

投資關系

新聞動態

加入我們

聯系我們

舉報投訴

社交網絡

微博

移動端

發燒友APP

硬聲APP

WAP

聯系我們

廣告合作

王婉珠：wangwanzhu@elecfans.com

內容合作

黃晶晶：huangjingjing@elecfans.com

內容合作（海外）

張迎輝：mikezhang@elecfans.com

供應鏈服務 PCB/IC/PCBA

江良華：lanhu@huaqiu.com

投資合作

曾海銀：zenghaiyin@huaqiu.com

社區合作

劉勇：liuyong@huaqiu.com

關注我們的微信

下載發燒友APP

電子發燒友觀察

電子工程師社區

1-32層PCB打樣·中小批量

元器件現貨·全球代購·SmartBOM

SMT貼片·PCBA加工

PCB Manufacturer

華秋簡介

企業動態

聯系我們

企業文化

企業宣傳片

加入我們

版權所有 ? 湖南華秋數字科技有限公司
電子發燒友 （電路圖） 湘公網安備43011202000918 電信與信息服務業務經營許可證：合字B2-20210191 工商網監湘ICP備 2023018690 號

亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看