<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

使用MaxCompute阿里大數據計算方法詳解

智能感知與物聯網技術研究所 ? 來源:互聯網 ? 作者:佚名 ? 2018-03-19 09:53 ? 次閱讀

給大家分享一下基于MaxCompute搭建社交好友推薦系統,使用MaxCompute阿里的大數據計算的方法可以做哪些事情,如果說是以社交好友的推薦,來給大家去演示一下。好友推薦系統它的一個場景介紹,現在大家都在講大數據,如果想去使用這些數據,我們認為它需要具備三個要素,第一個要素是海量的數據,數據量越多越好,只有數據量達到了足夠大,我們才能夠成為一個數據里面潛在去挖掘出來。第二個是處理數據的能力,有了這樣很高的快速處理數據的能力,可以讓我們更快的去把數據里面的信息挖掘出來。第三個是商業變現的一個場景,我們采集大數據的時候,并不是數據越多越好,一定要有一個具體的場景。以推薦系統為例來看一下大數據的一個應用。

左邊是支付寶,在支付寶一打開的時候,下面會有一欄推薦可能是你的好友,一般的話下面的那些人都是你認識的,可能還沒加他們為好友。右側是Linkin,它是一個求職社交網站,Linkin也會給你這樣的一個推薦,會告訴你哪一些用戶是你潛在的好友,而且Linkin會告訴你這個好友跟你是一度的關系的還是兩度的關系或者是三度的關系。潛在關聯性高的,會在前面直接顯示出來,潛在關聯性沒有那么高的也會在后面顯示出來,這兩個都是典型的一個好友推薦。

進行好友推薦的時候,怎么給用戶進行推薦,首先這兩個人是非好友的關系,接著我們去看一下他們倆潛在共同好友的處理,通過這種方式去給用戶推送,比方說潛在好友數量多,我就認為這兩個人是好友關系,就是通過這種方式來實現的。

上圖的右側是人與人之間的一個社交關系的服務,比如說A跟B是一個好友,我們可以通過這五個方式畫出來,讓機器去分析這些數據,需要把右邊這種社交的關系,轉換成機器可以識別的數據,轉換成左側這樣的二維表的數據,比如說A跟B、C、D他們之間是好友,我們左側是A跟B、C、D是好友關系,剩下這些也是類似的,這樣就可以把這個表傳到機器里面進行分析,比方說通過分析之后,發現A跟E有一個共同好友,B跟D有兩個共同好友,然后C跟E有一個共同好友。這個時候就可以推薦B跟D他兩個是一個潛在的好友,而排在前面,A跟E或者C跟E排在概率往下,稍微低一些,潛在好友多的排在前面,潛在好友少的排在后面,通過這種方式來進行排列,這個是我們期望的結果。

好友推薦系統的分析模型

我們怎么來去計算呢?我們一般使用方式是什么呢?使用的是MapReduce這樣的一個計算模型,MapReduce是一種編程模型,用于大規模數據集的并行運算,它由三部分組成分別是Map、Combine、Reduce。

以好友推薦這樣的一個場景為例。

首先輸入左側機器可以識別的數據,輸入之后,在Map端先把數據做一個拆分,拆分成兩份不同的數據,在拆分的同時把它轉換成key、value的類型,比方說A、B、D、E這幾行數據轉換成什么呢?A跟B,然后value是零,零代表他們兩個已經是好友。如果兩個不是好友的話,自定義這一行數據,B跟D不是好友,就把他的值視為1。下面的B、E,還有D跟E也是1。把原來一行數據轉換成Key、Value這個形式的數據,類似于右邊這樣的數據,上面是key、value的一個類型,下面也是類似的。這個是在Map做的事情,把這個數據通過兩個key、value進行一個拆分,轉化成key、value這樣的一個類型。

Combine是對數據先做一個本地的匯總,先看到有一些數據是重復的,比如說A跟B是零,A跟B是零,出現了兩次,這個時候就存一個就可以。其他類似的,這樣我把這些數據在本地做完匯總,類似于這張表,這兩個數據。

接著是第三步是Reduce階段,Reduce是對這些數據進行一個匯總,把兩邊數據匯總到一起,然后對每一個Key值對應唯一的一個value值做一個匯總,這個就是它最終計算的一個結果。如果兩個用戶已經是好友了,Value值是零的話,不需要再給他推薦。所以說A、B如果是零的話就剔掉,只需要知道它的value值是大于零的,有潛在好友,同時這兩個人目前還是非好友的關系,這個就達到了想要的效果。

好友推薦系統在阿里云上的實現方式

好友推薦阿里云實現整個的架構是怎么樣的呢?比方現在有一個社交軟件是一個業務系統,前端使用阿里云的云服務器ECS去部署整個的社交的軟件的應用,入庫的一些數據存到阿里的RDS,這個就是當前的一個社交應用系統。業務系統里面產生了一個數據,怎么來對數據進行分析,首先需要在數據庫里邊把這個數據提取出來,提取到阿里云的大計算服務MaxCompute里面,很類似于我們傳統做數倉的時候ETL的一個過程,會利用阿里云的大數據開發平臺對數據進行分析和處理。

使用它可以快速便捷的去開發我們數據植入或者數據這樣的一個流程,這個就是會使用大數據開發平臺和大數據制造,結果是一個數據分析結果,還需要前端的應用數據對分析出來的結果展示出來。

MaxCompute的技術特點

對于MaxCompute的一些技術特點主要有一下幾點:

  1. 分布式:分布式集群、跨集群技術、可靈活擴展。

  2. 安全性:從安全性來講具有自動存儲糾錯、沙箱機制、多分備份。

  3. 易用:具有標準API、全面支持SQL、上傳下載工具。

  4. 權限控制:多租戶管理、用戶權限策略、數據訪問策略。

MaxCompute的使用場景

對于MaxCompute的使用的場景,可以使用MaxCompute搭建自己的一個數據倉庫,同時,MaxCompute還可以提供一種分布式的應用系統,比方說可以通過圖計算,或者通過有效的寬幅的方式,可以搭建一個工作流;比方說數據分析并不是說只分析一天就不分析了,其實是周期性的。如果數據每天要分析一次,可以在MaxCompute里面生成那樣的任務工作流,設置一個周期性的調度,每天要讓它調度一次,MaxCompute可以按照設計好的工作流,調動周期,然后去運行;MaxCompute在機器學習里面也是有用的,因為機器學習會用到MaxCompute分析出來的數據,其他相類似的服務對數據進行分析處理,分析出來的結果數據放到機器學習平臺里面,讓機器通過一些算法一些模型,去學習這里邊的數據,生成一個希望達到的一個模型。

大數據開發套件DataIDE

另外一個除了MaxCompute之外還有一個會用到一個大數據開發操作DateIDE,大數據開發套件DataIDE(現名:數據工場DataWorks)提供一個高效、安全的離線數據開發環境。為什么介紹它呢?是因為DateIDE只是對數據任務工作流的一個開發,其實底層的數據處理,數據分析,都是在MaxCompute上完成,可以簡單理解為DateIDE就是一個圖象化的數據開發的服務,它是為了幫助我們更好去使用MaxCompute。也可以看到,這我們可以在DateIDE進行一個開發,不需要直接在MaxCompute里面進行開發了,在MaxCompute開發的一個效果,跟在DateIDE里面開發的效果對比。

這個是DateIDE整個應用的一個場景,我們在進行數據分析的時候,需要對里面的原數據進行整合統一保存,這個時候可以在DateIDE上實現,把所有的原數據的信息統一匯總到MaxCompute里面進行一個保存,同時還可以DateIDE進行數據的加工,存儲等操作都可以在DateIDE上完成。DateIDE在整個數據分析的過程中可以對數據存儲、分析、處理、集群等處理。

MaxCompute的應用開發流程

MaxCompute的應用開發流程一共需要六步分別是:

  1. 安裝配置環境

  2. 開發MR程序

  3. 本地模式測試腳本

  4. 導處jar包

  5. 上傳到MaxCompute項目空間

  6. 在MaxCompute中使用MR

下面我們以一個好友推薦的事例來詳細講解一下這個過程。首先需要去安裝MaxCompute客戶端,使用它的好處是可以在本地通過命令的方式去遠程使用阿里云的MaxCompute,在本地只需要配置MaxCompute信息就可以。另外還需要去配置自己的一個開發環境,因為現在阿里云的MaxCompute主要是兩種語言,一種是Java一種是Eclipse。然后新建項目,在開發新建項目的時候,大家可以看到這個紅包,這個紅包就是需要配置本地的客戶端的信息。在進入到寫代碼的過程。

接下來就是簡單的測試,開發之后要測試,這個代碼是不是按照設想的方式去工作的。接著這邊輸入的是一個測試數據,這個輸出的數據類別,就是輸出的這樣的一個表格,表格有三列,第一類是用戶A,第二類是用戶B,第三類是兩個潛在的共同好友的數量,只需要關注這三個數據就可以,然后就可以測試。接著第三個本地運行的數據的代碼,運行的結果就是通過本地的開發測試,在本地測試的時候這邊有一個數據,你第一步需要選擇是使用哪一個的一個項目處理。第二個要選擇輸入表和輸出表,要告訴他輸出表是哪個,輸出表的目的是什么,告訴這個程序,你輸出的結果保存在表里面,配置好點擊運行這個結果就出來了。

本地開發測試成功之后,接著要把它打成一個Jar包,然后上傳到阿里云上,就是上傳到MaxCompute的集群里邊。第二個打完Jar包以后添加資源,下面就把剛剛輸出的Jar包,通過資源的管理,把剛剛輸入的Jar包上傳上來。本地開發測試好的一個MR的Jar包已經上傳到MaxCompute集群里邊。

上傳好了之后就可以使用它,去新建一個任務,然后這個任務去起個名字,這個任務跟哪一個Jar包相關聯,接著是OPENBMR,我們選的是MR的程序,所以里面選的是OPENMR模塊,生成這樣的一個任務,進入到編輯頁面,在編輯頁面里面首先告訴它,這個OPENMR這樣的一個任務,使用的是上傳的好友推薦的一個Jar包,最下面告訴它Jar包里面的程序的邏輯是什么,在這個里面制定好之后點擊運行結果就會出來。這個就是我們在本地開發測試,把資源上傳到MaxCompute的集群里面,接著在集群里面去使用我在本地開發好的Jar包,這個就是整個的一個開發和部署的一個流程。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 嵌入式
    +關注

    關注

    5001

    文章

    18394

    瀏覽量

    291024
  • 大數據
    +關注

    關注

    64

    文章

    8713

    瀏覽量

    136685

原文標題:基于大數據搭建社交好友推薦系統

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    儲能容量的計算方法

    隨著可再生能源的大規模應用和電力系統的日益復雜,儲能技術的重要性日益凸顯。儲能容量作為儲能技術的關鍵參數之一,其計算方法對于評估儲能系統的性能、優化儲能系統的配置以及提高電力系統的穩定性等方面具有重要意義。本文將對儲能容量的計算方法進行詳細介紹,并探討其在實際應用中的意義
    的頭像 發表于 05-20 15:20 ?314次閱讀

    電壓探頭延遲計算方法及應用

    在電子測試和測量中,電壓探頭是一種常用的工具,用于測量電路中的電壓信號。然而,電壓探頭本身會引入一定的延遲,這可能會對測量結果產生影響。本文將介紹電壓探頭延遲的計算方法,并探討其在實際應用中的重要性
    的頭像 發表于 04-28 10:28 ?135次閱讀
    電壓探頭延遲<b class='flag-5'>計算方法</b>及應用

    耐壓測試中漏電流的計算方法

    耐壓測試是一種常用的電氣測試方法。在進行耐壓測試時,需要對漏電流進行計算,以確保測試過程中的安全。本文將詳細介紹耐壓測試中漏電流的計算方法。 一、漏電流的概念 漏電流是指在絕緣材料表面或內部
    的頭像 發表于 01-11 14:38 ?6225次閱讀
    耐壓測試中漏電流的<b class='flag-5'>計算方法</b>

    層間對準度的計算方法有哪些

    將詳細介紹層間對齊度的計算方法,包括各種相關度量和算法。 一、介紹 在許多實際問題中,我們經常遇到不同層次結構之間的對齊問題。例如,在計算機視覺中,人們常常需要將圖像與對應的標注或語義分割結果進行對齊,以驗證模型的準確性。在自然語言處理中
    的頭像 發表于 12-22 14:00 ?337次閱讀

    EMC計算方法和EMC仿真(1) ——計算方法簡介

    EMC計算方法和EMC仿真(1) ——計算方法簡介
    的頭像 發表于 12-05 14:56 ?639次閱讀
    EMC<b class='flag-5'>計算方法</b>和EMC仿真(1) ——<b class='flag-5'>計算方法</b>簡介

    不同殼溫下SOA曲線的計算方法

    不同殼溫下SOA曲線的計算方法
    的頭像 發表于 12-04 17:54 ?410次閱讀
    不同殼溫下SOA曲線的<b class='flag-5'>計算方法</b>

    晶體管的元件溫度計算方法

    晶體管的元件溫度計算方法
    的頭像 發表于 11-23 09:09 ?308次閱讀
    晶體管的元件溫度<b class='flag-5'>計算方法</b>

    UPS(不間斷電源)蓄電池后備時間的計算方法詳解

    電子發燒友網站提供《UPS(不間斷電源)蓄電池后備時間的計算方法詳解.pdf》資料免費下載
    發表于 11-13 11:20 ?1次下載
    UPS(不間斷電源)蓄電池后備時間的<b class='flag-5'>計算方法</b><b class='flag-5'>詳解</b>

    開關電源中多種線圈電感量的計算方法

    電子發燒友網站提供《開關電源中多種線圈電感量的計算方法.pdf》資料免費下載
    發表于 11-13 09:55 ?1次下載
    開關電源中多種線圈電感量的<b class='flag-5'>計算方法</b>

    I2C時鐘設置計算方法

    I2C時鐘設置計算方法I2C時鐘設置計算方法
    發表于 10-20 08:17

    mos管噪聲計算方法

    MOS管噪聲計算方法 噪聲是電路設計和性能評估中的一個關鍵問題,特別是在高頻率和低功耗應用中。MOSFET是一種廣泛應用于各種電路的半導體器件。因此,正確計算MOS管噪聲是非常重要的。本文將介紹
    的頭像 發表于 09-19 16:49 ?1480次閱讀

    噪音計的結構和噪音計工作原理 噪音計算方法解析

    ? 噪音計算方法解析 ? ? 儀器標準 ? ?
    的頭像 發表于 09-15 17:54 ?643次閱讀
    噪音計的結構和噪音計工作原理 噪音<b class='flag-5'>計算方法</b>解析

    變壓器電感計算方法 變壓器感抗如何計算

    變壓器電感計算方法 變壓器感抗如何計算 變壓器是電力系統中最常見的電力設備之一,其主要作用是進行電壓的改變和電能的傳輸。變壓器的核心是磁性材料,通過磁感線的相互作用將電能轉換為磁能和再轉換為電能
    的頭像 發表于 08-23 17:20 ?3562次閱讀

    高速ADC噪聲系數計算方法

    今天給大家分享下高速ADC噪聲系數計算方法
    的頭像 發表于 07-10 16:33 ?1090次閱讀
    高速ADC噪聲系數<b class='flag-5'>計算方法</b>

    零序互感器的變比計算方法

    零序互感器是電力系統中一種特殊的電流互感器,用于測量電力系統中的零序電流,以實現對電氣設備的保護和控制。零序互感器一般都有變比,變比是指電流互感器的一種特殊參數,它決定了互感器輸出的電流與被測電路中的電流之間的比例關系。下面將介紹零序互感器的變比計算方法。
    的頭像 發表于 06-03 09:39 ?4937次閱讀
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>