作者:
時間:2020年04月23日
信息來源:
什么是數(shù)據(jù)倉庫?數(shù)據(jù)倉庫技術(shù)有那些?
在了解數(shù)據(jù)倉庫的概念之前,我們需要先來理解一些相關(guān) 基礎(chǔ)概念。
(1) ETL ( Extract/Transformation/Load, 清洗/轉(zhuǎn)換/加載):用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗、轉(zhuǎn)換,最終按照預(yù)先定義好的數(shù)據(jù)倉庫模型,將數(shù)據(jù)加載到數(shù)據(jù)倉庫中去。
(2)元數(shù)據(jù):關(guān)于數(shù)據(jù)的數(shù)據(jù),指在數(shù)據(jù)倉庫建設(shè)過程中所產(chǎn)生的有關(guān)數(shù)據(jù)源定義,目標定義,轉(zhuǎn)換規(guī)則等相關(guān)的關(guān)鍵數(shù)據(jù)。同時元數(shù)據(jù)還包含關(guān)于數(shù)據(jù)含義的商業(yè)信息。典型的元數(shù)據(jù)包括:數(shù)據(jù)倉庫表的結(jié)構(gòu)、數(shù)據(jù)倉庫表的屬性、數(shù)據(jù)倉庫的源數(shù)據(jù)(記錄系統(tǒng))、從記錄系統(tǒng)到數(shù)據(jù)倉庫的映射、數(shù)據(jù)模型的規(guī)格說明、抽取日志和訪問數(shù)據(jù)的公用例行程序等。
(3)粒度:數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)的細化或綜合程度的級別。細化程度越高,粒度級就越小;相反,細化程度越低,粒度級就越大。
(4)分割:結(jié)構(gòu)相同的數(shù)據(jù)被分成多個數(shù)據(jù)物理單元。任何給定的數(shù)據(jù)單元屬于且僅屬于一個分割。
(5)數(shù)據(jù)集市:小型的,面向部門或工作組級數(shù)據(jù)倉庫。
(6) ODS (Operation Data Store,操作數(shù)據(jù)存儲):能支持企業(yè)日常的全局應(yīng)用的數(shù)據(jù)集合,是不同于DB的一種新的數(shù)據(jù)環(huán)境, 是DW打展后得到的一個混合形式。四個 基本特點:面向主題的、 集成的、可變的、當前或接近當前的。
(7)數(shù)據(jù)模型:邏輯數(shù)據(jù)結(jié)構(gòu),包括由數(shù)據(jù)庫管理系統(tǒng)為有效進行數(shù)據(jù)庫處理提供的操作和約束;用于表示數(shù)據(jù)的系統(tǒng)。
(8)人工關(guān)系:在決策支持系統(tǒng)環(huán)境中用于表示參照完整性的一種 設(shè)計技術(shù)。
傳統(tǒng)的數(shù)據(jù)庫技術(shù)在聯(lián)機事務(wù)處理中獲得了成功,但是無法滿足隨著市場競爭的加劇而帶來的管理人員對決策分析數(shù)據(jù)提供的要求。傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)中缺乏決策分析所需的大量歷史數(shù)據(jù)信息,因為傳統(tǒng)的數(shù)據(jù)庫一般只保 留當前或近期的數(shù)據(jù)信息。為了滿足中高層管理人員預(yù)測、決策分析的需要,在傳統(tǒng)數(shù)據(jù)庫的基礎(chǔ)上產(chǎn)生了能夠滿足預(yù)測、決策分析需要的數(shù)據(jù)環(huán)境 數(shù)據(jù)倉庫。
數(shù)據(jù)倉庫是一個面向主題的、 集成的、非易失的、且隨時間變化的數(shù)據(jù)集合,用于支持管理決策。
大眾觀點的數(shù)據(jù)倉庫的體系結(jié)構(gòu)如圖1-8所示。
(1)數(shù)據(jù)源:是數(shù)據(jù)倉庫系統(tǒng)的基礎(chǔ),是整個系統(tǒng)的數(shù)據(jù)源泉。通常包括企業(yè)內(nèi)部信息和外部信息。內(nèi)部信息包括存放于關(guān)系型數(shù)據(jù)庫管理系統(tǒng)中的各種業(yè)務(wù)處理數(shù)據(jù)和各類文檔數(shù)據(jù)。外部信息包括各類法律法規(guī)、市場信息和競爭對手的信息等。
(2)數(shù)據(jù)的存儲與管理:是整個數(shù)據(jù)倉庫系統(tǒng)的核心。數(shù)據(jù)倉庫的真正關(guān)鍵是數(shù)據(jù)的存儲和管理。數(shù)據(jù)倉庫的組織管理方式?jīng)Q定了它有別于傳統(tǒng)數(shù)據(jù)庫,同時也決定了其對外部數(shù)據(jù)的表現(xiàn)形式。要決定采用什么產(chǎn)品和技術(shù)來建立數(shù)據(jù)倉庫的核心,則需要從數(shù)據(jù)倉庫的技術(shù)特點著手分析。針對現(xiàn)有各業(yè)務(wù)系統(tǒng)的數(shù)據(jù),進行抽取、清理,并有效集成,按照主題進行組織。數(shù)據(jù)倉庫按照數(shù)據(jù)的覆蓋范圍可以分為企業(yè)級數(shù)據(jù)倉庫和部門級數(shù)據(jù)倉庫(通常稱為數(shù)據(jù)集市)。
(3) OLAP服務(wù)器:對分析需要的數(shù)據(jù)進行有效集成,按多維模型予以組織,以便進行多角度、多層次的分析,并發(fā)現(xiàn)趨勢。其具體實現(xiàn)可以分為: ROLAP、MOLAP和HOLAP。ROLAP基本數(shù)據(jù)和聚合數(shù)據(jù)均存放在RDBMS之中; MOLAP基本數(shù)據(jù)和聚合數(shù)據(jù)均存放于多維數(shù)據(jù)庫中: HOLAP基本數(shù)據(jù)存放于RDBMS之中,聚合數(shù)據(jù)存放于多維數(shù)據(jù)庫中。
(4)前端工具:主要包括各種查詢工具、報表工具、分析工具、數(shù)據(jù)挖掘工具以及各種基于數(shù)據(jù)倉庫或數(shù)據(jù)集市的應(yīng)用開發(fā)工具。其中數(shù)據(jù)分析工具主要針對OLAP服務(wù)器,報表工具、數(shù)據(jù)挖掘工具主要針對數(shù)據(jù)倉庫。