數據庫范式學習

2019-11-08 20:48:11

字體：大中小

來源：轉載

供稿：網友

數據庫范式是數據庫設計中必不可少的知識，沒有對范式的理解，就無法設計出高效率、優雅的數據庫。甚至設計出錯誤的數據庫。而想要理解并掌握范式卻并不是那么容易。教科書中一般以關系代數的方法來解釋數據庫范式。這樣做雖然能夠十分準確的表達數據庫范式，但比較抽象，不太直觀，不便于理解，更難以記憶。本文用較為直白的語言介紹范式，旨在便于理解和記憶，這樣做可能會出現一些不精確的表述。但對于初學者應該是個不錯的入門。我寫下這些的目的主要是為了加強記憶，其實我也比較菜，我希望當我對一些概念生疏的時候，回過頭來看看自己寫的筆記，可以快速地進入狀態。如果你發現其中用錯誤，請指正。下面開始進入正題：一、基礎概念要理解范式，首先必須對知道什么是關系數據庫，如果你不知道，我可以簡單的不能再簡單的說一下：關系數據庫就是用二維表來保存數據。表和表之間可以……（省略10W字）。然后你應該理解以下概念：· 實體：現實世界中客觀存在并可以被區別的事物。比如“一個學生”、“一本書”、“一門課”等等。值得強調的是這里所說的“事物”不僅僅是看得見摸得著的“東西”，它也可以是虛擬的，不如說“老師與學校的關系”。

· 屬性：教科書上解釋為：“實體所具有的某一特性”，由此可見，屬性一開始是個邏輯概念，比如說，“性別”是“人”的一個屬性。在關系數據庫中，屬性又是個物理概念，屬性可以看作是“表的一列”。

· 元組：表中的一行就是一個元組。

· 分量：元組的某個屬性值。在一個關系數據庫中，它是一個操作原子，即關系數據庫在做任何操作的時候，屬性是“不可分的”。否則就不是關系數據庫了。

· 碼：表中可以唯一確定一個元組的某個屬性（或者屬性組），如果這樣的碼有不止一個，那么大家都叫候選碼，我們從候選碼中挑一個出來做老大，它就叫主碼。

· 全碼：如果一個碼包含了所有的屬性，這個碼就是全碼。

· 主屬性：一個屬性只要在任何一個候選碼中出現過，這個屬性就是主屬性。

· 非主屬性：與上面相反，沒有在任何候選碼中出現過，這個屬性就是非主屬性。

· 外碼：一個屬性（或屬性組），它不是碼，但是它別的表的碼，它就是外碼。

二、6個范式好了，上面已經介紹了我們掌握范式所需要的全部基礎概念，下面我們就來講范式。首先要明白，范式的包含關系。一個數據庫設計如果符合第二范式，一定也符合第一范式。如果符合第三范式，一定也符合第二范式…第一范式（1NF）：屬性不可分。在前面我們已經介紹了屬性值的概念，我們說，它是“不可分的”。而第一范式要求屬性也不可分。那么它和屬性值不可分有什么區別呢？給一個例子：

name	tel		age
大寶	13612345678		22
小明	13988776655	010－1234567	21

Ps：這個表中，屬性值“分”了。

name	tel		age
name	手機	座機	age
大寶	13612345678	021－9876543	22
小明	13988776655	010－1234567	21

Ps：這個表中，屬性 “分”了。這兩種情況都不滿足第一范式。不滿足第一范式的數據庫，不是關系數據庫！所以，我們在任何關系數據庫管理系統中，做不出這樣的“表”來。第二范式（2NF）：符合1NF，并且，非主屬性完全依賴于碼。聽起來好像很神秘，其實真的沒什么。一個候選碼中的主屬性也可能是好幾個。如果一個主屬性，它不能單獨做為一個候選碼，那么它也不能確定任何一個非主屬性。給一個反例：我們考慮一個小學的教務管理系統，學生上課指定一個老師，一本教材，一個教室，一個時間，大家都上課去吧，沒有問題。那么數據庫怎么設計？（學生上課表）

學生	課程	老師	老師職稱	教材	教室	上課時間
小明	一年級語文（上）	大寶	副教授	《小學語文1》	101	14：30

一個學生上一門課，一定在特定某個教室。所以有（學生，課程）－>教室一個學生上一門課，一定是特定某個老師教。所以有（學生，課程）－>老師一個學生上一門課，他老師的職稱可以確定。所以有（學生，課程）－>老師職稱一個學生上一門課，一定是特定某個教材。所以有（學生，課程）－>教材一個學生上一門課，一定在特定時間。所以有（學生，課程）－>上課時間因此（學生，課程）是一個碼。然而，一個課程，一定指定了某個教材，一年級語文肯定用的是《小學語文1》，那么就有課程－>教材。（學生，課程）是個碼，課程卻決定了教材，這就叫做不完全依賴，或者說部分依賴。出現這樣的情況，就不滿足第二范式！有什么不好嗎？你可以想想：1、校長要新增加一門課程叫“微積分”，教材是《大學數學》，怎么辦？學生還沒選課，而學生又是主屬性，主屬性不能空，課程怎么記錄呢，教材記到哪呢? ……郁悶了吧?(插入異常)2、下學期沒學生學一年級語文（上）了，學一年級語文（下）去了，那么表中將不存在一年級語文（上），也就沒了《小學語文1》。這時候，校長問：一年級語文（上）用的什么教材?。俊魫灹税?(刪除異常)3、校長說：一年級語文（上）換教材，換成《大學語文》。有10000個學生選了這么課，改動好大??！改累死了……郁悶了吧？（修改異常）那應該怎么解決呢？投影分解，將一個表分解成兩個或若干個表

學生	課程	老師	老師職稱	教室	上課時間
小明	一年級語文（上）	大寶	副教授	101	14：30

學生上課表新

課程	教材
一年級語文（上）	《小學語文1》

課程的表

第三范式（3NF）：符合2NF，并且，消除傳遞依賴上面的“學生上課表新”符合2NF，可以這樣驗證：兩個主屬性單獨使用，不用確定其它四個非主屬性的任何一個。但是它有傳遞依賴！在哪呢？問題就出在“老師”和“老師職稱”這里。一個老師一定能確定一個老師職稱。有什么問題嗎？想想：1、老師升級了，變教授了，要改數據庫，表中有N條，改了N次……（修改異常）2、沒人選這個老師的課了，老師的職稱也沒了記錄……（刪除異常）3、新來一個老師，還沒分配教什么課，他的職稱記到哪？……（插入異常）那應該怎么解決呢？和上面一樣，投影分解：

學生	課程	老師	教室	上課時間
小明	一年級語文（上）	大寶	101	14：30

老師	老師職稱
大寶	副教授

BC范式（BCNF）：符合3NF，并且，主屬性不依賴于主屬性若關系模式屬于第一范式，且每個屬性都不傳遞依賴于鍵碼，則R屬于BC范式。通常BC范式的條件有多種等價的表述：每個非平凡依賴的左邊必須包含鍵碼；每個決定因素必須包含鍵碼。 BC范式既檢查非主屬性，又檢查主屬性。當只檢查非主屬性時，就成了第三范式。滿足BC范式的關系都必然滿足第三范式。還可以這么說：若一個關系達到了第三范式，并且它只有一個候選碼，或者它的每個候選碼都是單屬性，則該關系自然達到BC范式。

一般，一個數據庫設計符合3NF或BCNF就可以了。在BC范式以上還有第四范式、第五范式。

第四范式（4NF）

1．定義

第四范式需要滿足以下要求：

（1）必須滿足第三范式

（2）表中不能包含一個實體的兩個或多個互相獨立的多值因子。

2．說明

顯然，第四范式也是一個比第三范式嚴格的范式。

第四范式的意思是：當一個表中的非主屬性互相獨立時（3NF），這些非主屬性不應該有多值。若有多值就違反了第四范式。定義比較抽象，可以參照下面的例子理解。

3．舉例

有這樣一個用戶聯系方式表TELEPHONE(CUSTOMERID,PHONE,CELL)。 CUSTOMERID為用戶ID,PHONE為用戶的固定電話,CELL為用戶的移動電話。

本來，這是一個非常簡單的第3范式表。主鍵為CUSTOMERID，不存在傳遞依賴。但在某些情況下，這樣的表還是不合理的。比如說，用戶有兩個固定電話，兩個移動電話。這時，表的具體表示如下：