国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 開發 > 綜合 > 正文

數據挖掘操作必須在數據倉庫基礎上進行

2024-07-21 02:43:22
字體:
來源:轉載
供稿:網友
人們對數據的處理需求可以分為兩種類型,操作型處理(OLTP)和分析型處理(OLAP),傳統的數據庫主要是面向OLTP,注重數據的計算、記錄的插入、刪除、與修改,以及簡單的查詢和統計。它的主要任務是進行事務處理,所關注的是事務處理的及時性、完整性和正確性,而在數據的分析處理方面存在著嚴重的不足,主要表現在以下一些方面。

首先是集成性的缺乏。業務數據庫系統的條塊與部門分割,導致數據分布的分散化與無序化。業務數據庫缺乏統一的定義與規劃,導致數據的定義存在歧義;其次是主題不明確,建立數據庫的目的就是為了滿足事務處理的需要,庫和表的定義與設計完全以此為基礎而進行,對于數據分析而言,這些庫和表無疑缺少明確的主題。又是需要分析的數據會分散的存儲在不同的表和庫甚至不同的數據庫服務器中,想要對這些數據進行有效的分析是十分困難的。然后是分析和處理的效率低下,設計基于傳統數據庫的應用系統的核心準則,是要確保事務得到及時、準確的處理。因此,在業務數據庫系統的構建過程中,除了庫和表的精心設計之外,索引的建立、存儲過程的優化等工作,也均以此為中心展開,這樣雖然充分提高了事務處理的效率,但是數據分析處理的效率卻無法得到保證。

傳統數據庫由于自身條件的限制,無法擔當作為大規模數據綜合分析平臺的重任,企業的決策迫切需要有一種新的理論與技術來提供支持,這就是數據倉庫技術。

數據倉庫就是面向主題的、集成的、隨時間變化的、非易失的數據集合,用于支持管理層的決策過程,“面向主題、集成、隨時間變化和非易失”是它的主要特點。

面向主題是數據倉庫中數據組織的最基本原則。數據倉庫中的所謂“主題”,是一個邏輯概念。在信息管理的層次上,主題就是從管理的角度出發,對數據進行綜合分析而抽取的,需要做進一步分析的對象,數據倉庫的構造過程首先就是確定主題的過程。數據倉庫的設計者必須明確該數據倉庫所支持的決策內容,即數據倉庫的用途,并將決策內容歸納為若干個具體的易于利用數據進行組織加以分析的主題。

數據倉庫中數據的集成性是指,在構建數據倉庫的過程中,多個外部數據源內格式不同、定義各異的數據,按照既定的策略經過抽取、清洗、轉換等一系列處理。最終構成一個有機的整體。傳統業務處理程序的側重點在于迅速、正確地處理所有業務,記錄業務內容和處理結果,而不是對決策提供支持。數據倉庫直接使用傳統業務處理的結果,進行數據分析。

數據倉庫中數據的非易失性,包括兩個方面的含義,其一是指數據倉庫內容的更新、追加等操作是不頻繁的,一般基于一定的周期或條件閾值進行;其二是指,數據在導入數據倉庫后,雖然也有刪除更新等操作,但決定這種操作的閾值條件是較難滿足的,這種情況的發生是非常罕見的。

數據的時變性,是指數據倉庫的內容隨時間的變化不斷得到補充、更新。其實質就是建立業務數據與時間的對應關系,即以時間為坐標軸,對既定時間點的業務數據生成“快照”,各個時間點的快照連接起來,就構成了數據倉庫內容的動態連續變化圖,為決策者提供有效的依據。

從數據庫到數據倉庫,完成了數據挖掘的最重要一步,為數據挖掘接下來的步驟的順利進行大好了基礎。數據挖掘的各項操作都是在數據倉庫的基礎上進行的。數據倉庫的構建是一門大學問。


發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 建始县| 太白县| 古田县| 肇庆市| 左云县| 宕昌县| 涿鹿县| 于都县| 隆子县| 布尔津县| 二手房| 溧水县| 乌海市| 五常市| 乌兰浩特市| 苍南县| 长乐市| 南开区| 上思县| 曲周县| 咸丰县| 新田县| 彩票| 淳安县| 巴东县| 汉川市| 保康县| 防城港市| 墨竹工卡县| 济宁市| 通城县| 凌海市| 谢通门县| 饶平县| 莱州市| 鄢陵县| 濮阳市| 什邡市| 堆龙德庆县| 赤城县| 文山县|