<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

數據倉庫的基本架構及架構圖介紹

姚小熊27 ? 來源:網絡整理 ? 2018-02-11 10:08 ? 次閱讀

數據倉庫簡介

數據倉庫,英文名稱為DataWarehouse,可簡寫為DW或DWH。數據倉庫,是為企業所有級別的決策制定過程,提供所有類型數據支持的戰略集合。它是單個數據存儲,出于分析性報告和決策支持目的而創建。為需要業務智能的企業,提供指導業務流程改進、監視時間、成本、質量以及控制。

數據倉庫的用途

1.整合公司所有業務數據,建立統一的數據中心

2.產生業務報表,用于作出決策

3.為網站運營提供運營上的數據支持

4.可以作為各個業務的數據源,形成業務數據互相反饋的良性循環

5.分析用戶行為數據,通過數據挖掘來降低投入成本,提高投入效果

6.開發數據產品,直接或間接地為公司盈利

數據倉庫的基本架構及架構圖介紹

數據倉庫分層的原因

1通過數據預處理提高效率,因為預處理,所以會存在冗余數據

2如果不分層而業務系統的業務規則發生變化,就會影響整個數據清洗過程,工作量巨大

3通過分層管理來實現分步完成工作,這樣每一層的處理邏輯就簡單了

標準的數據倉庫分層:ods(臨時存儲層),pdw(數據倉庫層),mid(數據集市層),app(應用層)

ods:歷史存儲層,它和源系統數據是同構的,而且這一層數據粒度是最細的,這層的表分為兩種,一種是存儲當前需要加載的數據,一種是用于存儲處理完后的數據。

pdw:數據倉庫層,它的數據是干凈的數據,是一致的準確的,也就是清洗后的數據,它的數據一般都遵循數據庫第三范式,數據粒度和ods的粒度相同,它會保存bi系統中所有歷史數據

mid:數據集市層,它是面向主題組織數據的,通常是星狀和雪花狀數據,從數據粒度將,它是輕度匯總級別的數據,已經不存在明細的數據了,從廣度來說,它包含了所有業務數量。從分析角度講,大概就是近幾年

app:應用層,數據粒度高度匯總,倒不一定涵蓋所有業務數據,只是mid層數據的一個子集。

數據倉庫的基本架構及架構圖介紹

數據倉庫的架構圖介紹

數據倉庫的基本架構及架構圖介紹

1、數據采集

數據采集層的任務就是把數據從各種數據源中采集和存儲到數據存儲上,期間有可能會做一些ETL操作。

數據源種類可以有多種:

日志:所占份額最大,存儲在備份服務器上

業務數據庫:如Mysql、Oracle

來自HTTP/FTP的數據:合作伙伴提供的接口

其他數據源:如Excel等需要手工錄入的數據

2、數據存儲與分析

HDFS是大數據環境下數據倉庫/數據平臺最完美的數據存儲解決方案。

離線數據分析與計算,也就是對實時性要求不高的部分,Hive是不錯的選擇。

使用Hadoop框架自然而然也提供了MapReduce接口,如果真的很樂意開發Java,或者對SQL不熟,那么也可以使用MapReduce來做分析與計算。

Spark性能比MapReduce好很多,同時使用SparkSQL操作Hive。

3、數據共享

前面使用Hive、MR、Spark、SparkSQL分析和計算的結果,還是在HDFS上,但大多業務和應用不可能直接從HDFS上獲取數據,那么就需要一個數據共享的地方,使得各業務和產品能方便的獲取數據。

這里的數據共享,其實指的是前面數據分析與計算后的結果存放的地方,其實就是關系型數據庫和NOSQL數據庫。

4、數據應用

報表:報表所使用的數據,一般也是已經統計匯總好的,存放于數據共享層。

接口:接口的數據都是直接查詢數據共享層即可得到。

即席查詢:即席查詢通常是現有的報表和數據共享層的數據并不能滿足需求,需要從數據存儲層直接查詢。一般都是通過直接操作SQL得到。

理想的數據倉庫架構

數據倉庫的基本架構及架構圖介紹

增加了以下內容:

數據采集:采用Flume收集日志,采用Sqoop將RDBMS以及NoSQL中的數據同步到HDFS上

消息系統:可以加入Kafka防止數據丟失

實時計算:實時計算使用SparkStreaming消費Kafka中收集的日志數據,實時計算結果大多保存在Redis中

機器學習:使用了SparkMLlib提供的機器學習算法

多維分析OLAP:使用Kylin作為OLAP引擎

數據可視化:提供可視化前端頁面,方便運營等非開發人員直接查詢

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據倉庫
    +關注

    關注

    0

    文章

    60

    瀏覽量

    10406
收藏 人收藏

    評論

    相關推薦

    基于阿里云數加MaxCompute的企業大數據倉庫架構建設思路

    摘要:數加大數據直播系列課程主要以基于阿里云數加MaxCompute的企業大數據倉庫架構建設思路為主題分享阿里巴巴的大數據是怎么演變以及怎樣利用大
    發表于 03-15 12:43

    應用部署架構圖

    筆者一個項目中用到的架構圖,Linux+Tomcat應用服務器兩臺,MSSQL2012數據庫服務器3臺做成了故障轉移集群。
    發表于 07-15 06:58

    上海邏迅丨節能降耗 系統架構圖

    上海邏迅丨節能降耗 系統架構圖
    發表于 10-09 13:58

    RT-Thread 架構圖

    RT-Thread 架構圖:RT-Thread開發指南開源地址內核層:RT-Thread 內核,是 RT-Thread 的核心部分,包括了內核系統中對象的實現,例如多線程及其調度、信號量、郵箱
    發表于 12-16 08:15

    PCIE基本概念與拓撲架構圖

    1 PCIE基本概念1.1 PCIE拓撲架構圖1.2 PCIE Switch內部結構圖1.3 PCIE協議結構圖2 PCIE枚舉原理2.1 Type0&Type1配置頭空間2.2 拓撲示例
    發表于 02-16 06:08

    電信數據倉庫設計

    本文針對佳木斯電信的業務需求,設計了佳木斯電信數據倉庫的總體架構,并以營業受理情況主題為例介紹了佳木斯電信數據倉庫數據模型的設計過程。
    發表于 12-18 17:01 ?14次下載

    電腦主板架構圖

    主板架構圖1(早期主板)
    發表于 05-31 14:15 ?1w次閱讀
    電腦主板<b class='flag-5'>架構圖</b>

    主板架構圖1(早期主板)

    主板架構圖1(早期主板)
    發表于 05-21 11:02 ?1532次閱讀
    主板<b class='flag-5'>架構圖</b>1(早期主板)

    主板架構圖2(P2.P3.P4主板)

    主板架構圖2(P2.P3.P4主板)
    發表于 05-21 11:03 ?1330次閱讀
    主板<b class='flag-5'>架構圖</b>2(P2.P3.P4主板)

    深圳市圣奇仕科技有限公司組織架構圖

    深圳市圣奇仕科技有限公司組織架構圖
    發表于 11-04 15:53 ?1498次閱讀

    什么是paas平臺_paas邏輯架構圖

    本文開始介紹了什么是PAAS平臺和PAAS的特點,其次分析了PAAS平臺的發展前景,最后介紹了詳細的介紹paas邏輯架構圖。
    的頭像 發表于 01-30 18:00 ?2.8w次閱讀
    什么是paas平臺_paas邏輯<b class='flag-5'>架構圖</b>

    數據倉庫是什么_數據倉庫的特點_數據倉庫數據庫區別

    本文開始介紹數據倉庫是什么,其次詳細介紹數據倉庫的特點、數據倉庫的基本架構
    的頭像 發表于 02-11 10:42 ?2.4w次閱讀
    <b class='flag-5'>數據倉庫</b>是什么_<b class='flag-5'>數據倉庫</b>的特點_<b class='flag-5'>數據倉庫</b>與<b class='flag-5'>數據</b>庫區別

    如何畫架構圖

    維基百科、百度百科其實都沒有關于它的直接定義。不過我們可以進行拆分理解:架構圖=架構+圖這樣問題就轉化成,什么是架構,以及什么是圖?關于架構,百度百科上是這樣定義的
    的頭像 發表于 01-13 14:38 ?1062次閱讀

    如何畫技術架構圖

    在我們做系統架構設計時,如何快速的向外界傳達我們的設計思路。4+1試圖適合我們厘清思路、表達自己的想法。在我們匯報,爭取領導層的認同支持更適合用架構圖來表述我們的觀點。架構圖包括總體架構
    的頭像 發表于 02-06 17:39 ?2603次閱讀

    基石DDPM(模型架構篇),最詳細的DDPM架構圖

    DDPM(模型架構篇):也就是本篇文章。在閱讀源碼的基礎上,本文繪制了詳細的DDPM模型架構圖,同時附上關于模型運作流程的詳細解說。本文不涉及數學知識,直觀幫助大家了解DDPM怎么用,為什么好用。
    的頭像 發表于 06-29 16:32 ?7277次閱讀
    基石DDPM(模型<b class='flag-5'>架構</b>篇),最詳細的DDPM<b class='flag-5'>架構圖</b>解
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>