<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

向量數據庫這杯“啤酒”與“泡沫”

腦極體 ? 來源: 腦極體 ? 作者: 腦極體 ? 2023-07-28 09:09 ? 次閱讀

就像啤酒注定要有泡沫,每一場淘金熱都不缺被捧上了時代風口的人。

大模型這一波熱潮中,向量數據庫就是那個幸運兒。

一方面,技術層面并沒有太大突破。向量數據庫并不是一種特別新的數據庫技術,在AI領域已經應用了七八年,谷歌在2015年就宣布使用RankBrain語義檢索來處理搜索任務。相比N家的卡、液冷的算、全光的網、升級的存,向量數據庫在技術方面并沒有特別亮眼的突破。

而另一方面,向量數據庫的投資熱潮又特別旺盛。在上半年成了創業公司、云計算廠商、老牌數據庫公司,以及投資人們“群起而攻之”的風口,Pinecone、Chroma 和 Weviate 等向量數據庫初創公司都獲得了融資,有的融資額高達上億美元。這在全球經濟不明朗的投資形勢下,還是非常亮眼的成績。

不同于GPU卡那樣短期內需求堅挺、供不應求,加上摩爾定律的約束,即使有泡沫,也是鐵做的。也不同于存算網這類“新基建”,長期投入的戰略價值,得到了廟堂和民間的一致重視。

向量數據庫,更多是作為一種AI基礎技術和產品,開始為大眾所知曉。

僅憑這樣,就在投資市場上一飛沖天,多少有點讓人不安。加上最近,大訓模型的熱度開始降溫,ChatGPT訪問量下降,更多大模型已經到地里田間礦井“干活兒”去了。

不禁讓人好奇,隨著大模型的風口下沉,向量數據庫的投資概念還能飛多久,會不會倏忽而來,倏忽而去,留下喝了“一嘴泡沫”的公司和投資人,在風中凌亂呢?

我們就來好好品一品,這一杯啤酒和泡沫。

技術的啤酒

訓大模型、用大模型,離不開一系列AI基礎設施,所以,作為基礎設施之一的向量數據庫,確實有點東西。引入向量數據庫,是能喝到真材實料的“啤酒”的。

這就有必要先說說這個技術本身。

數據庫不用多說,是必不可少的IT基礎設施,用于存儲和查詢各種數據,可以看作是數據的“硬盤”。那么,向量數據庫就是更適合AI體質的“硬盤”,有幾個特質來說明這一點:

1.必要性。

向量數據庫,顧名思義就是專門用于存儲和管理向量數據。作為一種數據結構,每個向量都包含多個維度,每個維度代表不同的特征或屬性,比如圖像的顏色、文本詞匯的出現頻率等。而AI算法,要從圖像、音頻和文本等海量的非結構化數據中學習,提取出以向量為表示形式的“特征”,以便模型能夠理解和處理。因此,向量數據庫比傳統的關系型數據庫,更適合AI 應用。

wKgZomTCkyWAMJUVAAEEd2cF0SU842.jpg

2. 高效率。

每個元素都有一個索引,便于訪問或修改數值?;诖?,向量數據庫可以通過將分組和索引,快速找到與給定查詢最接近的嵌入,實現高效的相似性搜索,同時減少存儲和計算成本。

相比傳統單機插件式數據庫,向量數據庫的檢索規??梢蕴嵘?,支持百萬級每秒查詢(QPS)的峰值能力,同時延遲控制在毫秒級。

想象一下,如果沒有高效的搜索技術支持,一個大語言模型動輒數十億、上百億參數,只能處理有限數量的輸入數據,無法搜索更大的數據庫,那么在AIGC、搜索、廣告推薦算法等任務的性能表現就會受限。

一個公開數據是,通過使用云向量數據庫,QQ音樂人均聽歌時長提升3.2%;騰訊視頻有效曝光人均時長提升1.74%;QQ瀏覽器成本降低37.9%,這些數據的變化就在于檢索效率、運行穩定性、運營效率、推薦算法等有了較大的提升。

3.需求大。

隨著產業智能化的加速,以及大模型和其他 AI 應用的爆發,各行各業的AI用例不斷增多,由此帶來了洶涌的數據洪潮和存算任務,向量數據庫嵌入向量的長度不受限制,具有良好的擴展性,可以根據AI用例和模型而變化,更好地處理大規模數據集。

而且,向量數據庫可以拓展大模型的時間邊界和空間邊界,讓大模型在訓練完成后,也可以訪問向量數據庫的最新信息,了解最近發生的事情。

總的來說,向量數據庫就是更適合AI體質的數據庫,在AI任務上效果拔群,在機器學習領域中日益流行。

那么問題來了,一些在AI領域積淀已久的科技大廠,如谷歌、微軟、Mate以及BAT等大廠,都有向量數據庫的技術積累,也都可以向外輸出相關能力和產品。此外,一些基于開源技術的數據庫創業公司,如Pinecone、Weaviate、Odrant、Chroma近年來打開了市場知名度。

可以說,市場上并不缺乏向量數據庫的產品和解決方案。那么2023年,這杯技術啤酒,是怎么咕嘟咕嘟冒出泡沫的呢?

wKgaomTCkyWALetaAAG7696-E8U740.jpg

浪潮之巔的泡沫

向量數據庫的市場現狀,說是“從0到1”,并不為過。

首先,大眾市場的認知度才剛剛打開。

此前,向量數據庫更多是AI企業在使用,今年才開始為大眾所熟知,這離不開一些AI相關企業的推波助瀾。今年 3月的 NVIDIA GTC 大會上,黃仁勛首次提及向量數據庫,強調向量數據庫對大語言模型的重要性。

不是所有企業都有能力自建大模型所需要的基礎設施,通過MaaS(模型即服務)業務來訓練應用大模型是更靈活的選擇,這就要求云廠商提供全?;A設施。

百度、京東、騰訊、華為等,都在自家的大模型完整基礎設施中,提到了向量數據庫。目前,云廠商的MaaS業務才剛剛開始走向市場,大模型的產業落地不是一蹴而就的,向量數據庫的接受度和規模究竟有多大,還是個未知數。

第二,向量數據庫的技術,還沒經歷“卷生卷死”的迭代。

Pinecone是閉源的領跑者,其他競爭者要么是開源的,比如Weviate,要么是巨頭,包括頭部云廠商和甲骨文、IBM等老牌數據庫廠商,開始構建AI數據庫的產品和解決方案。

大廠扎堆競技,這意味著,如果技術沒有大的突破,就會陷入高密度的同質化競爭,從藍??焖龠M入紅海。而如果技術有顛覆式變革,很多技術壁壘不高、客戶認知不強的新入局創業者,很難跟開源生態或技術巨頭PK,容易被大浪淘沙。

最后,向量數據庫的成本,還沒有降到“可規模復制”的程度。

無論是自建向量數據庫,還是通過MaaS服務接入,都還達不到“付費可用”的程度。一般來說,企業需要先將非結構化的私密數據進行向量化,產生一個向量的矩陣,再存儲到向量數據庫里,來供大模型學習和檢索。這個過程涉及到大量的工程化,會耗費企業許多開發人員、時間成本。

這就需要云廠商或數據庫廠商,提供全鏈路的工具,來幫助企業完成整個數據向量化、大模型接入的工作,以及減少后續運維的難度。比如Pinecone就憑借良好的開箱即用的產品體驗,獲得了非常大的增長,B輪估值達到7.5億美元。

谷歌云、騰訊云、京東云等也都基于內部應用的多年積累,推出了一系列面向外部的工具、框架和應用。但只是邁出了從無到有的第一步,真正成熟還需要讓各家“卷起來”。

可以看到,現在這個階段,熱捧向量數據庫,確實有AIGC、大模型、云服務等多方面的現實需求,但從“概念普及”到“真正可用”之間,還有不短的距離。這之間的地帶,就是泡沫生長的地方。

江湖路遠,風高浪急,沒有想清楚的創業公司或行業用戶,還是別貿然“帶資進組”了。

啜飲時代的精釀

如果你是數據庫廠商,或者是著急布局大模型和AI應用的企業,希望早點將啤酒喝到嘴里,怎么辦呢?

篤定遠一點的未來,有些賽道的泡沫比例是相對少的,需求格外旺盛。

市場方面,國產化替代是不錯的選擇。

科技博弈背景下,加上我國數據庫產業的日益繁榮和技術突破,金融、電信、能源、交通等關鍵基礎行業的企業,在數據庫選型時,都開始傾向于國產,以保障數據的穩定性和安全性。

國外廠商在向量數據庫上有著更早的探索和積累,國產數據庫要補齊短板是需要時間的。

目前,BATH這類實力較強的國內科技企業,沉淀了向量數據庫的核心自主技術,與其合作研發和定制化開發,針對某些具體場景,提供特定優化的向量數據庫產品,加入國產化替代的賽道是成本更低、風險更可控、市場需求明確的選擇。

策略方面,加入云生態不要獨行。

鑒于向量數據庫的商業化前景還不明朗,有業內人士表示,與其投資新的向量數據庫項目,還不如關注現有數據庫中,有哪些加上向量引擎可以變得更加強大。

云數據庫就是其中之一,上云用數賦智是大勢所趨,很多政企客戶往往會選擇公有云或行業云來滿足其業務需求,將數據遷移到云上,對云數據庫的關注度和接受度上升。

騰訊云、華為云等大型云廠商,具有較高的品牌認知度和市場接受度,具有云原生、AI原生的技術棧和產品體系,經歷了海量場景的淬煉和深度優化,和這類云生態一起掘金向量數據庫,是更穩妥的方式。

和AI、大模型一樣,向量數據庫要品出味道,離不開時間的窖藏和醞釀。是在大訓模型的熱度下降后,像泡沫一樣湮滅,還是作為啤酒精釀沉淀下去,等待成為下一代數字基礎設施的剛需,被行業客戶所啜飲,是留給數據庫玩家和買家的選擇題。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 摩爾定律
    +關注

    關注

    4

    文章

    623

    瀏覽量

    78554
  • gpu
    gpu
    +關注

    關注

    27

    文章

    4446

    瀏覽量

    126888
  • 數據庫
    +關注

    關注

    7

    文章

    3604

    瀏覽量

    63484
  • 向量
    +關注

    關注

    0

    文章

    54

    瀏覽量

    11596
  • 云數據庫
    +關注

    關注

    0

    文章

    15

    瀏覽量

    1873
收藏 人收藏

    評論

    相關推薦

    搭載英偉達GPU,全球領先的向量數據庫公司Zilliz發布Milvus2.4向量數據庫

    在美國硅谷圣何塞召開的 NVIDIA GTC 大會上,全球領先的向量數據庫公司 Zilliz 發布了 Milvus 2.4 版本。這是一款革命性的向量數據庫系統,在業界首屈一指,它首次
    的頭像 發表于 04-01 14:33 ?156次閱讀
    搭載英偉達GPU,全球領先的<b class='flag-5'>向量</b><b class='flag-5'>數據庫</b>公司Zilliz發布Milvus2.4<b class='flag-5'>向量</b><b class='flag-5'>數據庫</b>

    ?通過Modbus讀寫數據庫中的數據

    本文是將數據庫數據轉為Modbus服務端/從站,實現數據庫內的數據也可以走Modbus協議通過網口或串口讀寫的案例,下圖是通過智能網關的參數軟件(在附件中)配置的參數: 上圖中的配置
    發表于 03-14 13:44

    元件數據庫

    軟件可以識別設備的元件數據庫就好了,我們公司的機器數據都是用物料編碼建立的
    發表于 11-16 14:39

    如何在HarmonyOS對數據庫進行備份,恢復與加密

    數據庫備份與恢復 場景介紹 當應用在處理一項重要的操作,顯然是不能被打斷的。例如:寫入多個表關聯的事務。此時,每個表的寫入都是單獨的,但是表與表之間的事務關聯性不能被分割。 如果操作的過程中
    發表于 11-07 08:57

    啤酒機如何實現液體流量控制

    流量控制,以及流量計的相關知識。 啤酒機流量控制的重要性在于,它能夠精確控制啤酒泡沫和酒精度,從而確保啤酒的品質和口感。此外,通過流量控制還可以實現
    的頭像 發表于 11-02 14:29 ?213次閱讀
    <b class='flag-5'>啤酒</b>機如何實現液體流量控制

    關于PLC設備對接ORACLE數據庫上傳查詢數據

    智能網關IGT-DSER方便實現PLC與數據庫之間的數據通訊,既可以讀取PLC的數據上報到數據庫,也可以從數據庫查詢
    發表于 10-12 15:34

    探尋向量數據庫爆火的真相,Zilliz 技術合伙人帶你解惑

    大模型時代的到來將向量數據庫的熱度推向了高點,在此氛圍下,有人發出了哲學家般的一問:究竟是大模型選擇了向量數據庫還是向量
    的頭像 發表于 09-28 11:40 ?344次閱讀
    探尋<b class='flag-5'>向量</b><b class='flag-5'>數據庫</b>爆火的真相,Zilliz 技術合伙人帶你解惑

    什么是向量數據庫?關系數據庫向量數據庫之間的區別是什么?

    向量數據庫是一種以向量嵌入(高維向量)方式存儲和管理非結構化數據(如文本、圖像或音頻)的數據庫,
    的頭像 發表于 08-16 10:13 ?1352次閱讀
    什么是<b class='flag-5'>向量</b><b class='flag-5'>數據庫</b>?關系<b class='flag-5'>數據庫</b>和<b class='flag-5'>向量</b><b class='flag-5'>數據庫</b>之間的區別是什么?

    向量數據庫:AI時代的下一個熱點

    AI大模型帶火了向量數據庫
    的頭像 發表于 08-08 22:45 ?286次閱讀

    數據庫設計-數據庫的基本概念(2)#數據庫

    數據庫
    未來加油dz
    發布于 :2023年07月18日 17:56:21

    數據庫數據模型設計(2)#數據庫

    數據庫
    未來加油dz
    發布于 :2023年07月18日 17:54:39

    數據庫使用介紹(2)#數據庫

    數據庫
    學習硬聲知識
    發布于 :2023年07月13日 20:29:10

    數據庫使用介紹(1)#數據庫

    數據庫
    學習硬聲知識
    發布于 :2023年07月13日 20:28:44

    北美有的,中國也有了!Zilliz Cloud向量數據庫云服務重磅登場

    Milvus自2019年正式開源以來,已經成長為全球最大、最活躍的向量數據庫開源項目與開發者社區。作為Milvus背后的開發者與運營者,Zilliz一直走在向量數據庫的最前沿,始終秉承
    的頭像 發表于 07-12 16:30 ?563次閱讀
    北美有的,中國也有了!Zilliz Cloud<b class='flag-5'>向量</b><b class='flag-5'>數據庫</b>云服務重磅登場

    向量數據庫是如何工作的?

    向量數據庫和 Embedding 是當前 AI 領域的熱門話題。
    的頭像 發表于 06-18 11:06 ?589次閱讀
    <b class='flag-5'>向量</b><b class='flag-5'>數據庫</b>是如何工作的?
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>