<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

股價久違飆漲,商湯要用自己的Scaling law挑戰GPT4

合宙LuatOS ? 2024-05-08 08:05 ? 次閱讀

4月24日,商湯集團在港交所暫停交易,暫停交易前上漲31.15%。商湯集團回應,“昨日日日新大模型5.0發布會廣受好評,受到市場極大關注;依照上市規則及港交所建議,公司將進一步刊發相關公告?!?/p>

就在前一天的“2024年商湯技術交流日”上,商湯發布了對標GPT4-Turbo的大模型日日新大模型SenseNova 5.0,追趕GPT4可能是當下中國大模型行業的集體目標。商湯在上海商湯臨港AIDC舉行的“2024年商湯技術交流日”上,交出了自己的答卷。

1. 商湯版本的Scaling Law

不是GPT-4-1106-preview,不是GPT-4-0125-preview,而是在一眾大模型榜單中都高居榜首的GPT4-Turbo。從SenseNova 4.0超GPT-3.5,到SenseNova5.0全面對標GPT-4 Turbo,商湯用了不到三個月時間。

這背后沒有魔法,而是大語言模型中的第一性原理:尺度定律(Scaling laws)在起作用。

首先,隨著數據、模型和算力規模的不斷提升,商湯能夠不斷提升大模型的能力。這也是OpenAI所強調的模型性能與模型大小、數據量和計算量之間的冪律關系,是一個更為通用的性能提升框架。

但大模型并非單純的暴力美學,背后是大量的軟件工程系統問題。商湯在遵循尺度定律的前提下,通過科學試驗得到數學公式,做到了能夠預測下一代大模型的性能,而不是盲目的隨機嘗試。

商湯科技董事長兼CEO徐立總結了兩個假設條件:

第一,可預測性:可以跨越5-7個數量級尺度依然保持對性能的準確預測。

第二,保序性:在小尺度上驗證了性能優劣,在更大尺度上依然保持。

這指導著商湯在有限的研發資源上找到最優的模型架構和數據配方,從而讓模型能夠更高效地完成學習的過程?!拔覀冊诤茉鐣r間就預測到我們的模型可以在一定測試級上超越GPT-4的能力?!?/p>

也就是說,商湯在大模型的研發過程中,注重通過小規模實驗來預測和驗證模型架構和數據配方的有效性,并確保這些在小規模上得到驗證的結論能夠在更大規模上得到保持和應用。

9c8e4848-0cce-11ef-9118-92fbcf53809c.png

“如果我們選擇更佳的數據配方性能提升效率會更大?!被谏虦膶嶒灲Y果,小模型在優化數據的情況下,也可以性能逼近甚至超越跨數量級的大模型。例如,Llama 3小模型跨越了一個數量級領先于Llama 2更大尺寸的模型。

隨之而來的一個問題是,更好的數據集在哪里?數據集質量如何提升?

據徐立介紹,SenseNova 5.0采用了10T+tokens中英文預訓練數據,通過精細設計的清洗處理,形成高質量的基礎數據,解決大模型對客觀知識和世界的初級認知。

除此之外,商湯還合成構造了思維鏈數據,預訓練過程中大規模采用邏輯合成數據(數千億tokens量級),從而提升模型推理、數學和編程能力。這本質上是在幫助大模型學習人類解決問題的思路和方法。

“這是真正意義上保障模型能力提升的關鍵。如果每一個行業思維鏈數據都能夠被輕松構造的話,我們在行業里面的推理能力就會大幅度提升”。

9c9d7b24-0cce-11ef-9118-92fbcf53809c.png

尺度定律也存在物理極限,比如沒有數據,比如硬件連接的極限。在今年3月份的時候,微軟工程師就提到OpenAI如果在同一個州部署超過 10 萬張H100 GPU,電網就會崩潰。徐立表示,“這需要對這些卡、這些連接、這些拓撲進行新的設計,算法設計和算力設施需要聯合優化?!?/p>

2. 文生視頻在路上

Llama3 8B和70B版本的發布,讓我們看到小參數大模型在端側場景的潛力。商湯此次也推出的1.8B參數的SenseChat-Lite,在主流評測中,超過了所有開源2B的同級別模型并且跨級領先了LLaMA2 等7B、13B模型。

9cb35e44-0cce-11ef-9118-92fbcf53809c.png

通過端云協同解決方案,SenseChat-Lite可在中端平臺實現18.3字/s的平均生成速度,旗艦平臺可達到了78.3字/s。

在端側的多模態方面,擴散模型同樣可在端側實現業內最快的推理速度,商湯端側LDM-AI擴圖技術在某主流平臺上,推理速度小于1.5秒,支持輸出1200萬像素及以上的高清圖片,支持在端上快速進行等比擴圖、自由擴圖、旋轉擴圖等圖像編輯功能。

商湯針對端側業務的SDK也正式發布,涵蓋了日常對話、常識問答、文案生成、相冊管理、圖片生成、圖片擴展等場景,支持全系列高通8系列、7系列的芯片,以及MTK天璣芯片,適配手機終端、平板電腦、VR眼鏡、車載終端。

針對金融、代碼、醫療、政務等行業面臨的數據私有化部署需求,商湯推出了企業級大模型一體機??赏瑫r支持企業級千億模型加速和知識檢索硬件加速,實現本地化部署,開箱即用,同時完成了國產化芯片的適配。支持最多2P FLOPS的算力,256G的顯存,448 GB/s的連接。

9ccbc498-0cce-11ef-9118-92fbcf53809c.png

面向軟件開發,商湯發布了小浣熊代碼大模型一體機輕量版,幫助企業開發人員更高效地編寫、理解和維護代碼,其在HumanEval的測試通過率達到了75.6%,超過GPT-4的74.4%,能夠支持90多種編程語言和8K上下文,單機可滿足100人以內的團隊應用需求。成本可從調用云端代碼服務的每人每天7-8元,降低到每人每天4.5元。小浣熊代碼大模型一體機輕量版的售價為每臺35萬元。

此外,商湯還發布了基于昇騰原生的行業大模型,與華為昇騰共同打造面向金融、醫療、政務、代碼等大模型產業生態。

在最后環節,徐立還留了個“彩蛋”:發了三段完全由大模型生成的視頻,并表示短時間會發布文生視頻平臺。這也讓人開始想象,追上GPT-4之后,在視覺領域積累深厚的商湯,下一個目標是追上Sora嗎?

3. 一場“快魚吃慢魚”的游戲

除了日日新SenseNova 5.0升級后對標 GPT-4 Turbo以及端側和邊側產品的發布,商湯這次技術交流日的另一個關鍵詞是“伙伴”。

商湯邀請了邀請了華為昇騰計算業務總裁張迪煊、金山辦公CEO章慶元、海通證券副總經理兼首席信息官毛宇星、小米集團小愛總經理王剛、閱文集團筑夢島總經理葛文兵等生態伙伴嘉賓分享。共同探討和交流大模型技術在辦公、金融、出行等不同領域的應用及前景。

這除了體現商湯大模型能力在不同領域的應用潛力,實際上也是在外界傳達了其商湯未來進一步深化行業合作的愿景。追上GPT4之后,真正比拼的可能是應用落地能力,在這一點上,商湯需要更多的伙伴。

無論是聯合華為發布基于昇騰原生的行業大模型,還是端側SDK的發布,我們可以看到商湯一直在強調行業合作伙伴的重要性,這也體現在與合作伙伴的細節中當中:

華為昇騰計算業務總裁張迪煊表示,商湯在今年三月初的加入昇騰的原生計劃,時隔一個多月已經發布四款行業大模型。

小米集團小愛總經理王剛則提到,商湯曾在兩三天內完成了的小米汽車的優化需求,并成功通過雷軍驗收。

“快”的背后是持續對生成式AI業務的投入,早在2021年,商湯就開始構建自己的AI基礎設施SenseCore商湯AI大裝置,AIDC是商湯重要算力基座,也在2022年1月24日正式啟動運營,業績公告顯示,商湯大裝置總算力已達到12000petaFLOPS,相較于2023年初提高了一倍,GPU數量達到45000卡,實現了萬卡萬參的大模型訓練能力。

自2023年3月宣布戰略聚焦AGI以來,商湯更是以季度為單位更新基礎大模型及解決方案。到SenseNova5.0追上GPT-4之后股票漲停,市場的邏輯很清晰,短時間內現金流充足,追上OpenAI目前最新的模型之后可以講更大的故事,加上足夠低的價格,自然會有更多人用腳投票。

“快”的結果落在商湯生成式 AI 業務的快速增長上,根據商湯科技最新發布的2023年財報顯示,其生成式AI收入業務收入達12億元取得了200%的大增長,占公司總收入的35%。這也是商湯成立十年以來,以最快速度取得超過10億收入的新業務。

從AI1.0時代走過的商湯,作為重要的引領者,見證了中國人工智能產業的變遷。

在AI2.0時代,所有人似乎都成為了OpenAI的追趕者。這場圍繞大模型的競爭,既是大魚吃小魚,也是快魚吃慢魚。OpenAI的領先身位帶來的是絕對的競爭優勢,參與者們要擺脫這種追趕的狀態,需要底層基礎設施的成熟,也需要頂層設計的創新。

對于商湯來說,只有在大模型商業化爆發前的黎明中跑得足夠快,跑得足夠久,才能夠吃到第一波紅利,在根本上解決掉虧損問題,從而回到它應得的位置。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    87

    文章

    26540

    瀏覽量

    264218
  • 人工智能
    +關注

    關注

    1777

    文章

    43993

    瀏覽量

    230970
  • 商湯科技
    +關注

    關注

    8

    文章

    425

    瀏覽量

    35892
收藏 人收藏

    評論

    相關推薦

    商湯科技推出6000億參數大模型,全力對標GPT-4 Turbo?

    稍晚些時候,商湯科技發布公告稱,4月23日在上海臨港AIDC舉辦技術交流日活動,推出了6000億參數大模型(日日新5.0),其知識、數學、推理和代碼能力均有顯著提升,綜合性能可媲美GPT-4Turbo。
    的頭像 發表于 04-25 10:11 ?121次閱讀

    商湯科技新升級大模型,對標GPT-4 Turbo?

    昨日,商湯科技在滬舉辦技術交流日活動,公布了其“云、端、邊”全棧大模型產品矩陣,并對“日日新SenseNova 5.0”大模型體系進行了全面升級?;诖?,商湯科技還推出了包括日日新。商量大模型5.0(SenseChat)、日日新。
    的頭像 發表于 04-24 17:17 ?345次閱讀

    商湯科技發布5.0多模態大模型,綜合能力全面對標GPT-4 Turbo

    商湯科技發布5.0多模態大模型,綜合能力全面對標GPT-4 Turbo 4月23日,商湯科技董事長兼CEO徐立在2024商湯技術交流日上發布了行業首個云、端、邊全棧大模型產品矩陣,能夠
    的頭像 發表于 04-24 16:49 ?537次閱讀

    拐點已現?智能駕駛或將重塑汽車產業格局

    隨著GPT大模型和FSD端到端的出現,基于“數據-算力”的方法拋棄了傳統的算法和編程CODING,取得了巨大的進展。通過Scaling law數據規模(百萬輛車視頻數據),終于實現了像人一樣駕駛的效果。
    發表于 04-08 10:01 ?437次閱讀
    拐點已現?智能駕駛或將重塑汽車產業格局

    使用TC21x的GPT實現1m計時器執行定時任務,怎么配置GTM和GPT?

    專家們好,我想使用TC21x的GPT實現1m計時器執行定時任務,不知道怎么配置GTM和GPT?
    發表于 02-06 06:47

    大模型的Scaling Law的概念和推導

    對于Decoder-only的模型,計算量(Flops), 模型參數量, 數據大小(token數),三者滿足:。(推導見本文最后) 模型的最終性能主要與計算量,模型參數量和數據大小三者相關,而與模型的具體結構(層數/深度/寬度)基本無關。
    的頭像 發表于 11-29 14:28 ?1142次閱讀
    大模型的<b class='flag-5'>Scaling</b> <b class='flag-5'>Law</b>的概念和推導

    Scaling Law大模型設計實操案例

    縱軸是"Bits for words", 這也是交叉熵的一個單位。在計算交叉熵時,如果使用以 2 為底的對數,交叉熵的單位就是 "bits per word",與信息論中的比特(bit)概念相符。所以這個值越低,說明模型的性能越好。
    的頭像 發表于 11-22 16:08 ?412次閱讀
    <b class='flag-5'>Scaling</b> <b class='flag-5'>Law</b>大模型設計實操案例

    ChatGPT Plus怎么支付 GPT4得訂閱嗎?

    自去年年底 OpenAI 轉型發布 ChatGPT 以來,生成式 AI 成為許多硅谷投資者關注的焦點。該聊天機器人使用從互聯網和其他地方抓取的大量數據來對人類提示產生預測響應。GPT-4 的許多方面
    的頭像 發表于 10-10 12:16 ?1403次閱讀
    ChatGPT Plus怎么支付 <b class='flag-5'>GPT4</b>得訂閱嗎?

    用C++構建自己GPT文檔工具

    雖然通過 Web 界面使用 ChatGPT 是一回事,但創建自己的自主 AI 工具,并通過其 API 與 ChatGPT 交互,則完全是另一回事,特別是當你的目標是保持對用戶交互的完全控制
    的頭像 發表于 08-19 14:20 ?396次閱讀
    用C++構建<b class='flag-5'>自己</b>的<b class='flag-5'>GPT</b>文檔工具

    chatGPT和GPT4有什么區別

    chatGPT和GPT4有什么區別 GPT(Generative Pre-trained Transformer)系列模型由OpenAI公司開發,是一組用于自然語言處理(NLP)任務的人工智能模型
    的頭像 發表于 08-09 15:18 ?1839次閱讀

    gpt-4怎么用 英特爾Gaudi2加速卡GPT-4詳細參數

    介紹GPT-4 詳細參數及英特爾發布 Gaudi2 加速器相關內容,對大模型及 GPU 生態進行探討和展望。英特爾發布高性價比Gaudi2加速卡GPT4詳細參數分析。
    發表于 07-21 10:50 ?646次閱讀
    <b class='flag-5'>gpt</b>-4怎么用 英特爾Gaudi2加速卡<b class='flag-5'>GPT</b>-4詳細參數

    你考慮用GPT4搞電機嗎?

    最近的GPT4有多火這里不需要贅述了。微軟,蘋果,baidu等各巨頭紛紛跟進。這個賽道最近是各種資本涌入,猶如PC互聯網轉型到移動互聯網時的爆發。
    發表于 07-05 09:16 ?230次閱讀
    你考慮用<b class='flag-5'>GPT4</b>搞電機嗎?

    GPT-4創造力竟全面碾壓人類!最新創造力測試GPT4排名前1%

    來源:新智元 最近,一項有關GPT-4的創造力思維測試火了。 來自蒙大拿大學和UM Western大學的研究團隊發現,GPT-4在Torrance創造性思維測試(TTCT)中的得分直接排在
    的頭像 發表于 06-25 10:35 ?277次閱讀
    <b class='flag-5'>GPT</b>-4創造力竟全面碾壓人類!最新創造力測試<b class='flag-5'>GPT4</b>排名前1%

    GPT-4已經會自己設計芯片了嗎?

    ? GPT-4已經會自己設計芯片了!芯片設計行業的一個老大難問題HDL,已經被GPT-4順利解決。并且,它設計的130nm芯片,已經成功流片。 GPT-4,已經可以幫人類造芯片了! 只
    的頭像 發表于 06-20 11:51 ?618次閱讀
    <b class='flag-5'>GPT</b>-4已經會<b class='flag-5'>自己</b>設計芯片了嗎?

    如何將分區格式從MBR更改為GPT?

    中的圖像,但分區格式配置為 MBR。 Q2)為什么LF_v5.15.5-1.0.0_images_iMX8MPEVK鏡像配置了MBR?你有理由嗎? Q3) 是否可以從 MBR 更改為 GPT?任何問題? Q4) 我應該在哪里修改才能從 MBR 更改為
    發表于 05-17 09:29
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>