<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

大數據分析學習的挑戰:復雜性、不確定性及涌現性

454398 ? 來源:alpha007 ? 作者:alpha007 ? 2022-11-17 10:19 ? 次閱讀

來源:ST社區

科多分享的大數據分析學習與研究的新挑戰:對于習慣結構化數據研究的統計學來說,大數據分析顯然是一種嶄新的挑戰。

挑戰來自何方?來自于大數據的復雜性、不確定性和涌現性三個方面,其中復雜性最為根本。

大數據的復雜性

復雜性是大數據區別于傳統數據的根本所在,它主要表現為類型復雜性、結構復雜性和內在模式復雜性三個方面,從而使得大數據的存儲與分析產生多方面的困難。對于大數據的類型與結構的復雜性這里不再贅述,但它們決定了數據模式的多樣化,使得刻畫數據特征的模式不斷變化、呈幾何級數增加。統計學盡管長期以來研究復雜現象的數量特征,但所涉及的數據是結構化的,模式是固定化的,比起大數據要簡單得多。

因此,學習大數據,我們不僅要熟悉各種類型的數據模式,還要善于把握它們之間的相互關系與作用,善于綜合利用各方面的知識(包括文本挖掘、圖像處理、信息網絡技術、心理學、社會學等等)加以研究。已有一些學者提出利用網絡來描述異質數據間的關系,同時提出了目標數據的“元路徑(Meta-Path)”概率刻畫模式。同時,由于非結構化數據通常比結構化數據包含更多的無用信息和垃圾信息,因此需要運用特定的方法來去偽存真、去粗存精,例如通過搜索引擎從非結構化數據中檢索出有用的信息等等。

大數據的不確定性

網絡大數據通常是高維的,以往的統計學習方法往往難以產生令人滿意的效果。復雜性必然帶來不確定性。

大數據的不確定性表現為數據本身的不確定性、模型的不確定性和學習的不確定性,從而給大數據建模和學習造成困難。數據的不確定性既包括原始數據的不準確,也包括數據處理過程中由各種因素所造成的在不同維度、不同尺度上的不確定性。例如阿里巴巴數據官曾經介紹,區淘寶網上購物者的性別特征就可以有十幾種判斷。雖然傳統的統計學方法主要研究不確定性數據,但傳統數據的不確定性明顯不同于大數據的不確定性,面對海量、高維、多類型的不確定性數據,傳統的統計方法顯得力不從心,無論是數據的采集、存儲、建模還是查詢、檢索和挖掘,都需要創新方法。大數據的不確定性必然帶來數據處理與分析模型的不確定性,但要解決這一點非常困難,有人提出了“可能世界模型”,認為應該在一定的結構規范下刻畫出數據的每一種狀態,但這同樣極其困難,在實際應用中不可能存在這樣一種通用的模型結構,只能采取簡化的模型,例如獨立性假設、同分布假設等等,尤其是概率圖模型已在數據相關性建模等方面得到了廣泛的應用。

模型的不確定性又必然帶來大數據學習的不確定性,使得模型參數的學習很難找到最優解,找到一個局部最優解都很困難,通常只能采用近似的方法來替代。

隨著多核CPU/GPU的普及以及并行計算框架的研究,碎片化方法被普遍認為是解決網絡大數據問題的可行方法,但需要做的工作仍然非常多。近些年來,統計學習領域的非參數模型方法提供了一種自動學習思路,但計算過程依然復雜,如何應用到網絡大數據以及大數據培訓中仍然是個問題。

大數據的涌現性

涌現性是網絡大數據有別于其他數據的關鍵特性,是大數據動態變化、擴展、演化的結果,表現為模式的涌現性、行為的涌現性和智慧的涌現性,其在度量、研判與預測上的困難使得網絡數據難以被駕馭。

涌現性的背后是各種信息的交互作用,是產生新的人類行為方式、以及社會經濟規律的重要基礎。模式的涌現性是指網絡數據由于多尺度、異質性而表現出來的、在屬性和功能等方面既存在差異又相互關聯的特定模式特征,這種涌現性結果對于研究社會網絡模型、理解網絡瓦解原因具有重要意義。行為的涌現性則與數據的時序性有關,是社會網絡中個體行為基于時序分布的統計結果,表現為較大相似性個體之間容易建立社會關系,使得網絡在演化過程中自發形成相互分離的連通塊。這種涌現性對于研究更多的社會網絡模型、理解行為涌現規律具有重要意義。例如,著名網絡科學家巴拉巴斯(Barabasi)通過研究發現,人們發送郵件的數量存在著特定的時間分布特征。智慧的涌現性是指網絡數據在沒有全局控制和預先定義的情況下,來自大量個體的自發語義通過互相融合和連接可以形成為有特定意義的通用語義,整個過程隨著數據的變化而持續演進。這種涌現性對于理解網絡語義的形成與變化具有重要意義。

總體而言,盡管近些年與大數據研究密切相關的數據庫、數據挖掘、機器學習智能工程等領域都取得了很大的進展,但由于大數據的復雜性、不確定性和涌現性,使得相關研究成果難以被直接應用于學習大數據的分析研究之中。傳統的分析方法不能準確表示網絡大數據在異構性、交互性、時效性和突發性等方面的特點,傳統的“假設—模型—驗證”的統計方法受到了質疑,而從“數據”到“數據”的第四研究范式還沒有真正建立,因此亟需一個新的理論體系來指導,建立新的分析模型。

審核編輯 黃昊宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 大數據
    +關注

    關注

    64

    文章

    8722

    瀏覽量

    136765
收藏 人收藏

    評論

    相關推薦

    三星電子急簽WOLED訂單:為應對LCD供應不確定性

     盡管去年三星電子從LG Display購買的W-OLED電視面板數量有限,但隨著市場不確定性的上升和供應鏈問題的加劇,三星電子正在調整策略,尋求更多元化的供應來源。
    的頭像 發表于 01-03 15:10 ?614次閱讀

    Get職場新知識:做分析,用大數據分析工具

    綜合分析。但現在有了大數據分析工具,一切問題都可迎刃而解。 大數據分析工具,顧名思義就是專門為分析海量數據而開發的一類工具。這類工具具有極強
    發表于 12-05 09:36

    消除熱電偶溫度測量中的不確定性(使用AD594/AD595)

    電子發燒友網站提供《消除熱電偶溫度測量中的不確定性(使用AD594/AD595).pdf》資料免費下載
    發表于 11-23 11:34 ?0次下載
    消除熱電偶溫度測量中的<b class='flag-5'>不確定性</b>(使用AD594/AD595)

    烏卡時代確定性稀缺,企業多云戰略最需看中什么?

    雙十一剛過,云服務商宕機導致大面積故障的新聞就引爆全網,再一次引發全網關于云計算安全可靠的大討論。 在一個充滿著復雜性、不穩定性不確定性的烏卡時代,云故障頻發似乎已發展成一種“常態”,讓企業對于
    的頭像 發表于 11-23 10:28 ?139次閱讀

    大規模確定性網絡技術分析與展望

    確定性網絡可以分為不同的技術路線,不同的技術路線往往從不同的層次切入來構建確定性網絡,借助分層技術圖譜可以清晰、快速地理清各個技術路線相關技術間的關系,其中不同技術工作或適應在不同的網絡層次和網絡
    的頭像 發表于 11-06 16:26 ?1014次閱讀
    大規模<b class='flag-5'>確定性</b>網絡技術<b class='flag-5'>分析</b>與展望

    墻體機器視覺金屬復雜表面缺陷的分類及成因

    檢測過程中金屬工件的復雜表面會增加表面缺陷檢測難度,在本文研究中,金屬工件為手機內部芯片屏蔽罩,其表面為平面并具有紋理,同時紋理具有多樣性和不確定性。
    發表于 10-18 10:44 ?278次閱讀
    墻體機器視覺金屬<b class='flag-5'>復雜</b>表面缺陷的分類及成因

    如何實施時間敏感型網絡以確保確定性通信

    間敏感型網絡 (TSN))已經擴展,以支持確定性通信。如果實施得當,TSN 可以與非 TSN 設備互操作,但確定性通信僅可在啟用 TSN 的設備之間進行。在實施 TSN 時,有許多 IEEE 802 標準需要協調,并確保其提供確定性
    的頭像 發表于 10-03 14:51 ?746次閱讀
    如何實施時間敏感型網絡以確保<b class='flag-5'>確定性</b>通信

    基于Transformer和深度證據學習的立體匹配框架

    作者在各種數據集上評估了所提出的ELFNet,包括Scene Flow ,KITTI 2012和KITTI 2015 和Middlebury 2014 。此外,作者進行不確定性分析,探討模型性能和不確定性之間的關系。
    發表于 09-18 18:29 ?226次閱讀
    基于Transformer和深度證據<b class='flag-5'>學習</b>的立體匹配框架

    如何設計水下推行器的能源系統?這篇文章將帶您深入了解

    水下環境的復雜性不確定性對推行器的能源系統提出了更高的要求。本文將深入探討如何設計一款適合水下環境的高效能源系統。
    的頭像 發表于 09-15 14:28 ?263次閱讀

    點云標注在自動駕駛中的實踐應用與挑戰

    光照、環境、傳感器等因素的影響,導致數據質量下降或不確定性增加。因此,需要開發更加魯棒的標注算法和模型,以應對實際應用中的挑戰。 其次,點云標注的效率和準確性需要進一步提高。在實際應用中,自動駕駛汽車需要處
    的頭像 發表于 07-18 17:00 ?358次閱讀

    不確定性時代下的新投資范式

    對此,廣發證券在研報中指出,全球新投資范式的表象是擁抱“確定性資產”,這種確定性一方面體現為低估低波穩定分紅永續經營的確定性,另一方面是新科技創新周期的遠景確定性,本質都是對
    的頭像 發表于 07-10 10:51 ?532次閱讀
    <b class='flag-5'>不確定性</b>時代下的新投資范式

    時序分析基本概念介紹&lt;Uncertainty&gt;

    今天我們要介紹的時序分析命令是uncertainty,簡稱時鐘不確定性。
    的頭像 發表于 07-07 17:23 ?2139次閱讀
    時序<b class='flag-5'>分析</b>基本概念介紹&lt;Uncertainty&gt;

    芯片Signoff是通過什么機制去控制偏差帶來的不確定性風險的?

    在芯片設計、制造、應用等各個環節都不可避免地會引入偏差,其直接造成的影響是晶體管、電阻電容以及繞線等電特性的不確定性。
    的頭像 發表于 06-28 16:35 ?1790次閱讀
    芯片Signoff是通過什么機制去控制偏差帶來的<b class='flag-5'>不確定性</b>風險的?

    可靠性預測的不確定性是否證明強制要求雙通道安全是合理的?

    在這篇博客中,我將集中討論針對此類要求給出的最常見的理由之一,即可靠性數字的不確定性。人們的擔憂主要集中在較舊的機械技術上,大多數人都認為半導體等新技術的可靠性預測更好。
    的頭像 發表于 06-27 11:40 ?547次閱讀
    可靠性預測的<b class='flag-5'>不確定性</b>是否證明強制要求雙通道安全是合理的?

    電商數據分析攻略,讓你輕松搞定數據分析!

    在當今的數字經濟時代,運用大數據分析來促進業務增長已然成為一種普遍行為,擁有一套系統化的數據分析方案尤為重要。奧威BI電商數據分析方案是一種基于數據挖掘和機器
    發表于 06-27 09:22
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>