<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

論文遭首屆ICLR拒稿、代碼被過度優化,word2vec作者Tomas Mikolov分享背后的故事

深度學習自然語言處理 ? 來源:機器之心 ? 2023-12-18 16:51 ? 次閱讀

除了表達自己獲得 NeurIPS 2023 時間檢驗獎的感想之外,Tomas Mikolo 還對 NLP 和 ChatGPT 的現狀給出了自己的一些思考。

幾天前,NeurIPS 2023 公布了獲獎論文,其中時間檢驗獎頒給了十年前的 NeurIPS 論文「Distributed Representations of Words and Phrases and their Compositionality」。這項工作引入了開創性的詞嵌入技術 word2vec,展示了從大量非結構化文本中學習的能力,推動了自然語言處理新時代的到來。

這篇論文由當時都還在谷歌的 Tomas Mikolov、Ilya Sutskever、Kai Chen、Greg Corrado、Jeffrey Dean 等人撰寫,被引量超過 4 萬次。

6db585ca-9d7c-11ee-8b88-92fbcf53809c.png

不過,Word2vec 首篇論文是 Tomas Mikolov 等同一作者的「Efficient Estimation of Word Representations in Vector Space」。這篇論文的引用量也已經接近 4 萬。

6db9b87a-9d7c-11ee-8b88-92fbcf53809c.png

論文地址:https://arxiv.org/abs/1301.3781

近日,Tomas Mikolov 分享了論文背后更多的故事,包括被首屆 ICLR 拒稿以及之后的進展等。

6dc46cac-9d7c-11ee-8b88-92fbcf53809c.jpg

圖源:https://www.facebook.com/tomas.mikolov

以下為原貼內容,我們做了不改變原意的整理。

我非常高興 word2vec 論文獲得了 NeurIPS 2023 時間檢驗獎,這是我獲得的第一個最佳論文類型的獎項。實際上,word2vec 原始論文在 2013 年首屆 ICLR 會議被拒絕接收了(盡管接收率很高),這讓我想到審稿人預測論文的未來影響是多么困難。

這些年,我聽到了很多關于 word2vec 的評論,正面的還有負面的,但至今沒有在網絡上認真地發表過評論。我覺得研究界正在不斷地被一些研究人員的 PR 式宣傳淹沒,他們通過這樣的方式獲得他人的論文引用和注意力。我不想成為其中的一部分,但 10 年后,分享一些關于論文背后的故事可能會很有趣。

我經常聽到的一個評論是,代碼很難理解,以至于有些人認為是我故意地讓代碼不可讀。但我沒有那么邪惡,代碼最終被過度優化了,因為我等了好幾個月才被批準發布它。我也試圖讓代碼更快更短?;叵肫饋?,如果當時團隊中沒有 Greg Corrado 和 Jeff Dean,我懷疑自己是否會獲得批準。我認為 word2vec 可能是谷歌開源的第一個廣為人知的 AI 項目。

在 word2vec 發布一年多后,斯坦福 NLP 小組的 GloVe 項目也引發了很大爭議。雖然該項目從我們的項目中復刻了很多技巧,但總感覺 GloVe 倒倒退了一步:速度較慢,還需要更多內存,生成的向量質量比 word2vec 低。然而,GloVe 是基于在更多數據上預訓練的詞向量發布的,因而很受歡迎。之后,我們在 fastText 項目中修復了相關問題,在使用相同數據進行訓練時,word2vec 比 GloVe 好得多。

盡管 word2vec 是我被引用最多的論文,但我從未認為它是我最有影響力的項目。實際上,word2vec 代碼最初只是我之前項目 RNNLM 的一個子集,我感覺 RNNLM 很快就被人們遺忘了。但在我看來,它應該和 AlexNet 一樣具有革命性意義。

在這里,我列舉一些在 2010 年 RNNLM 中首次展示的想法:遞歸神經網絡的可擴展訓練、首次通過神經語言模型生成文本、動態評估、字符和子詞級別的神經語言建模、神經語言模型自適應(現在稱為微調)、首個公開可用的 LM 基準。

我發布了第一項研究,顯示當一切正確完成時,訓練數據越多,神經網絡就能比 n-gram 語言模型更勝一籌。這在今天聽起來是顯而易見的,但在當時這被廣泛認為是不可能的,甚至大多數谷歌員工都認為,數據越多,除了 n-gram 和平滑技術外,其他任何工作都是徒勞的。

我很幸運能在 2012 年加入谷歌 Brain 團隊,那里有很多大規模神經網絡的「信徒」,他們允許我參與 word2vec 項目,展示了它的潛力。但我不想給人留下到這里就足夠完美的印象。在 word2vec 之后,作為后續項目,我希望通過改進谷歌翻譯來普及神經語言模型。我確實與 Franz Och 和他的團隊開始了合作,在此期間我提出了幾種模型,這些模型可以補充基于短語的機器翻譯,甚至可以取代它。

其實在加入谷歌之前,我就提出了一個非常簡單的想法,通過在句子對(比如法語 - 英語)上訓練神經語言模型來實現端到端的翻譯,然后在看到第一句話后使用生成模式生成翻譯。這對短句子效果很好,但在長句子上就不那么奏效了。

我在谷歌 Brain 內部多次討論過這個項目,主要是與 Quoc 和 Ilya,在我轉到 Facebook AI 后他們接手了這個項目。我感到非常意外的是,他們最終以「從序列到序列(sequence to sequence)」為名發表了我的想法,不僅沒有提到我是共同作者,而且在長長的致謝部分提及了谷歌 Brain 中幾乎所有的人,唯獨沒有我。那時是資金大量涌入人工智能領域的時期,每一個想法都價值連城??吹?a target="_blank">深度學習社區迅速變成某種權力的游戲,我感到很悲哀。

總之,多年來人們對語言模型的興趣增長緩慢,但自從 ChatGPT 發布以來,人們對它的興趣呈爆炸式增長,看到這么多人終于將人工智能和語言聯系在一起,真的很酷。我們還沒有到達那個階段,我個人認為我們需要有新的發現來突破神經模型的泛化極限。我們無疑生活在一個激動人心的時代。但是,讓我們不要過分信任那些想要壟斷基于數十位甚至數百位科學家辛勤工作的技術,同時聲稱這一切都是為了人類的利益的人。

不過,Tomas Mikolov 的發言也讓人感嘆,他也要步 LSTM 之父 Jürgen Schmidhuber 的后塵嗎?

6dd0b426-9d7c-11ee-8b88-92fbcf53809c.png

圖源:https://twitter.com/agihippo/status/1736107652407849208

你們怎么看呢?

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 代碼
    +關注

    關注

    30

    文章

    4557

    瀏覽量

    66826
  • nlp
    nlp
    +關注

    關注

    1

    文章

    464

    瀏覽量

    21829
  • ChatGPT
    +關注

    關注

    27

    文章

    1411

    瀏覽量

    4784

原文標題:論文遭首屆ICLR拒稿、代碼被過度優化,word2vec作者Tomas Mikolov分享背后的故事

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    KEIL怎么禁止某個函數/某段代碼編譯器優化?

    有沒有大佬知道,KEIL怎么禁止某個函數/某段代碼 編譯器優化?
    發表于 04-10 08:17

    淺談代碼優化過度設計

    本文記錄了作者從“代碼優化”到“過度設計”的典型思考過程,這過程中涉及了很多Java的語法糖及設計模式的東西,很典型,能啟發思考,遂記錄下來。 有一天Review師妹的
    的頭像 發表于 01-19 10:05 ?316次閱讀
    淺談<b class='flag-5'>代碼</b><b class='flag-5'>優化</b>與<b class='flag-5'>過度</b>設計

    ICLR 2024高分投稿:用于一般時間序列分析的現代純卷積結構

    這篇是 ICLR 上用 TCN 來做一般的時間序列分析的論文,在 Rebuttal 之后的分數為 888,算得上是時間序列領域相關的論文中最高分那一檔了。本文提出了一個 ModernTCN 的模型
    的頭像 發表于 12-18 16:05 ?454次閱讀
    <b class='flag-5'>ICLR</b> 2024高分投稿:用于一般時間序列分析的現代純卷積結構

    Omniverse 資訊速遞 | 應用案例、創作者故事、OpenUSD 最新視頻等你來解鎖!

    在本期 「Omniverse 資訊速遞」 中,Omniverse 用戶和開發者將了解到: Omniverse 應用案例與創作者故事 OpenUSD 最新視頻 Omniverse?應用案例與創作者
    的頭像 發表于 12-04 20:20 ?350次閱讀
    Omniverse 資訊速遞 | 應用案例、創<b class='flag-5'>作者</b><b class='flag-5'>故事</b>、OpenUSD 最新視頻等你來解鎖!

    Omniverse 資訊速遞 | 應用案例、創作者故事、行業觀點等你來解鎖!

    在本期 「Omniverse 資訊速遞」 中,Omniverse 用戶和開發者將了解到: Omniverse 應用案例與創作者故事 行業觀點 Omniverse 應用案例與創作者故事
    的頭像 發表于 10-09 19:55 ?308次閱讀
    Omniverse 資訊速遞 | 應用案例、創<b class='flag-5'>作者</b><b class='flag-5'>故事</b>、行業觀點等你來解鎖!

    如何使用Python讀取寫入Word文件

    Word 文件。 1、安裝 pip install python-docx 02 讀寫 1、讀取 使用 python-docx 庫可以輕松讀取 Word 文件。以下代碼演示了如何讀取一個名為
    的頭像 發表于 09-27 17:03 ?1462次閱讀

    嵌入式代碼優化技巧

    最近工作中,我通過層層優化重復代碼 ,最后抽出個通用模板.因此跟大家分享一下優化以及思考的過程。我會先造一個相似的例子,然后一步步帶大家如何優化哈 ,看完一定會有幫助的。
    發表于 09-11 11:43 ?178次閱讀
    嵌入式<b class='flag-5'>代碼</b><b class='flag-5'>優化</b>技巧

    優化重復冗余代碼的8種方式

    日常開發中,我們經常會遇到一些重復冗余的代碼 。大家都知道重復代碼不好 ,它主要有這些缺點:可維護性差、可讀性差、增加錯誤風險 等等。最近呢,我優化了一些系統中的重復代碼,用了好幾種的
    的頭像 發表于 09-11 09:47 ?361次閱讀

    transformer原理解析

    這些embedding可以使用谷歌Word2vec (單詞的矢量表示) 找到。在我們的數值示例中,我們將假設每個單詞的embedding向量填充有 (0和1) 之間的隨機值。
    的頭像 發表于 09-06 14:44 ?718次閱讀
    transformer原理解析

    Arm Neoverse? V2核心軟件優化指南

    本文檔描述了影響軟件性能的Neoverse V2核心微體系結構的各個方面。 微體系結構細節僅限于對軟件優化有用的細節。 文檔僅涉及Neoverse V2核心的軟件可見行為,而不涉及該行為背后
    發表于 08-24 06:29

    兼顧內存和速度的C語言代碼優化的方法

    在本篇文章中,我(指原作者)收集了很多經驗和方法。應用這些經驗和方法,可以幫助我們從執行速度和內存使用等方面來優化C語言代碼。
    發表于 07-24 15:44 ?282次閱讀
    兼顧內存和速度的C語言<b class='flag-5'>代碼</b><b class='flag-5'>優化</b>的方法

    代碼如何優化掉多余的if/else?

    觀點一(靈劍): 前期迭代懶得優化,來一個需求,加一個if,久而久之,就串成了一座金字塔。 當代碼已經復雜到難以維護的程度之后,只能狠下心重構優化。那,有什么方案可以優雅的優化掉這些多
    的頭像 發表于 06-22 10:01 ?485次閱讀
    <b class='flag-5'>代碼</b>如何<b class='flag-5'>優化</b>掉多余的if/else?

    PyTorch教程-15.4. 預訓練word2vec

    15.4. 預訓練word2vec? Colab [火炬]在 Colab 中打開筆記本 Colab [mxnet] Open the notebook in Colab Colab
    的頭像 發表于 06-05 15:44 ?211次閱讀
    PyTorch教程-15.4. 預訓練<b class='flag-5'>word2vec</b>

    PyTorch教程15.4之預訓練word2vec

    電子發燒友網站提供《PyTorch教程15.4之預訓練word2vec.pdf》資料免費下載
    發表于 06-05 10:58 ?0次下載
    PyTorch教程15.4之預訓練<b class='flag-5'>word2vec</b>

    Omniverse 資訊速遞 | SIGGRAPH 亮點搶先看、相關賽事、應用案例與創作者故事、教程視頻等你來解鎖!

    在本期 「Omniverse 資訊速遞」 中,Omniverse 用戶和開發者將了解到: SIGGRAPH 亮點搶先看 Omniverse 相關賽事 Omniverse 應用案例與創作者故事
    的頭像 發表于 05-15 23:40 ?351次閱讀
    Omniverse 資訊速遞 | SIGGRAPH 亮點搶先看、相關賽事、應用案例與創<b class='flag-5'>作者</b><b class='flag-5'>故事</b>、教程視頻等你來解鎖!
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>