如何處理Oracle數據庫中的壞塊問題

2024-08-29 13:29:29

字體：大中小

來源：轉載

供稿：網友

本文主要介紹如何去處理在oracle數據庫中出現壞塊的問題，對于壞塊產生在不同的對象上，處理的方法會有所不同，本文將大致對這些方法做一些介紹。因為數據庫運行時間長了，由于硬件設備的老化，出現壞塊的幾率會越來越大，因此，做為一個dba，怎么去解決數據庫出現的壞塊問題就成了一個重要的議題了。

一：什么是數據庫的壞塊

首先我們來大概看一下數據庫塊的格式和結構

數據庫的數據塊有固定的格式和結構，分三層：cache layer，transaction layer，data layer。在我們對數據塊進行讀取寫入操作的時候，數據庫會對要讀寫的數據塊做一致性的檢查，其中包括：數據塊的類型、數據塊的地址信息、數據塊的scn號以及數據塊的頭部和尾部。如果發現其中有不一致的信息，那數據庫就會標記這個數據塊為壞塊了。數據庫的壞塊分為兩種，邏輯壞塊和物理壞塊。

二：壞塊對數據庫產生的影響

如果數據庫出現壞塊，數據庫的告警日志文件里面會存在有如下的一些報錯信息：ora-1578以及ora-600 and trace file in bdump directory，其中ora-600錯誤的第一個參數值的范圍是[2000]-[8000]，不同的值代表著數據塊的不同的層出現問題，具體的如下表所示：

range                   block layer

cache layer             2000 – 4000

transaction layer       4000 – 6000

data layer              6000 - 8000

壞塊產生影響的對象可能是數據字典表、回滾段表、臨時段、用戶數據表和索引等。不同的對象產生壞塊后的處理方法不盡相同。

三：壞塊產生的原因

oracle調用標準c的系統函數，對數據塊進行讀寫操作，因此，壞塊是有可能由以下幾種原因產生：

Ø         硬件的i/o錯誤

Ø         操作系統的i/o錯誤或緩沖問題

Ø         內存或paging問題

Ø         磁盤修復工具

Ø         一個數據文件的一部分正在被覆蓋

Ø         oracle試圖訪問一個未被格式化的系統塊失敗

Ø         數據文件部分溢出

Ø         oracle或者操作系統的bug

四：壞塊的處理方法

1．先收集相應的關于壞快的信息，從alertsid.log文件或者從trace文件中查找，找到例如以下的一些信息：

   ora-1578 file# (rfn) block#

ora-1110 file# (afn) block#

   ora-600   file# (afn) block#

其中rfn表示的是relative_fno

afn表示的是file_id

        select file_name,tablespace_name,file_id “afn”,relative_fno “rfn”

        from dba_data_files;

        select file_name,tablespace_name,file_id, relative_fno“rfn”

        from dba_temp_files;

2．確定存在壞塊的對象是什么：

    select tablespace_name, segment_type, owner, segment_name, partition_name from dba_extents where file_id = <afn> and <bl> between block_id and block_id + blocks – 1；

    通過上面這個查詢語句就可以查出當前存在壞塊的對象是什么，是什么類型的對象。需要注意的是如果是temp文件中出現壞塊，是沒有記錄返回的。

3．根據2中查詢出來的對象類型，確定相應的處理方法

出現壞塊的常見對象有：

Ø         sys用戶下的對象

Ø         回滾段

Ø         臨時段

Ø         索引或者分區索引

Ø         表

常用的處理方法有：

Ø         恢復數據文件

Ø         只恢復壞的block（9i以上版本可用）

Ø         通過rowid range scan 保存數據

Ø         使用dbms_repair

Ø         使用event

4．具體處理方法的介紹

Ø         恢復數據文件方法：

如果數據庫是歸檔方式下，并且有完整的物理備份，就可以使用此方法來恢復。

步驟如下：

1)       先offline受影響的數據文件，執行以下的語句：

    alter database datafile 'name_file' offline；

2)       保留有壞塊的數據文件，然后拷貝備份的數據文件。如果恢復的數據文件要求路徑不同，執行以下的語句：

    alter database rename file 'old_name' to 'new_name';

3)       恢復數據文件，執行以下語句：

    recover datafile 'name_of_file';

4)       online恢復后的數據文件，執行以下的語句：

alter database datafile 'name_of_file' online;

Ø       只恢復壞的block（9i以上版本可用）

   使用這種方法要求數據庫版本是9.2.0以上，要求配置了rman的catalog數據庫，數據庫為歸檔方式，并且有完整的物理備份。

   步驟如下：

   使用rman的blockrecover命令：

   rman>run{blockrecover datafile 5 block 11,16;}

   也可以強制使用某個scn號之前的備份，恢復數據塊。

   rman>run{blockrecover datafile 5 block 11,16 restore until sequence 8505;}

Ø       通過rowid range scan 保存數據

1)    先取得壞塊中row id的最小值，執行以下的語句：

   select dbms_rowid.rowid_create(1,<obj_id>,<rfn>,<bl>,0) from dual;

2）取得壞塊中的row id的最大值，執行以下的語句：

   select dbms_rowid.rowid_create(1,<obj_id>,<rfn>,<bl>+1,0) from dual;

3）建議一個臨時表存儲那些沒有壞塊的數據，執行以下的語句：

   create table salvage_table as select *   from corrupt_tab where 1=2;

4）保存那些不存在壞塊的數據到臨時表中，執行以下的語句：

   insert into salvage_table select /*+ rowid(a) */ * from <owner.tablename> a where rowid < '<low_rid>'；

insert into salvage_table select /*+ rowid(a) */ * from <owner.tablename> a where rowid >= '<hi_rid>‘;

5) 根據臨時表中的數據重建表，重建表上的索引，限制。

Ø       使用10231診斷事件，在做全表掃描的時候跳過壞塊

可以在session級別設定：

alter session set events '10231 trace name context forever, level 10';

也可以在數據庫級別上設定，在初始化參數中加入：event="10231 trace name context forever, level 10" ，然后重啟數據庫。

然后從存在壞塊的表中取出不存在壞塊的數據，執行以下的語句：

create table salvage_emp as select * from corrupt_table;

最后rename生成的corrupt_table為原來表的名字，并重建表上的索引和限制。

Ø       使用dbms_repair包進行恢復

   使用dbms_repair標記有壞塊的表，在做全表掃描的時候跳過壞塊，執行以下的語句：

   execute dbms_repair.skip_corrupt_blocks('<schema>','<tablename>');

然后使用exp工具或者createtable as select的方法取出沒有壞塊數據，然后重建表，表上的索引和限制。

五：壞塊的預先發現的方法

1．如果要檢測數據庫中所有的表，可以利用exp工具導出整個數據庫可以檢測壞塊。不過這個工具有一些缺陷，對以下情況的壞塊是檢測不出來的：

Ø hwm以上的壞塊是不會發現的

Ø 索引中存在的壞塊是不會發現的

Ø 數據字典中的壞塊是不會發現的

2．如果只是對數據庫中比較重要的表進行壞塊檢查，可以使用analyze table tablename validate structure cascade 的方法來檢測壞塊，它執行壞塊的檢查，但是不會標記壞塊為corrupt，檢測的結果保存在user_dump_dest目錄下的用戶trace文件中。

3．使用oracle的專門工具dbv來檢查壞塊，具體的語法如下：

關鍵字     說明                    (默認)

----------------------------------------------------

file        要驗證的文件                 (無)

start       起始塊                    (文件的第一個塊)

end         結束塊                      (文件的最后一個塊)

blocksize   邏輯塊大小            (2048)

logfile     輸出日志                     (無)

feedback    顯示進度               (0)

parfile     參數文件                 (無)

userid      用戶名/口令              (無)

segment_id 段 id (tsn.relfile.block) (無)

例如：

dbv file=system01.dbf blocksize=8192

dbverify: release 9.2.0.5.0 - production on 星期六 11月 27 15:29:13 2004

copyright (c) 1982, 2002, oracle corporation. all rights reserved.

dbverify - 驗證正在開始 : file = system01.dbf

dbverify - 驗證完成

檢查的頁總數         ：32000

處理的頁總數（數據）：13261

失敗的頁總數（數據）：0

處理的頁總數（索引）：2184

失敗的頁總數（索引）：0

處理的頁總數（其它）：1369

處理的總頁數 (段) : 0

失敗的總頁數 (段) : 0

空的頁總數            ：15186

標記為損壞的總頁數：0

匯入的頁總數           ：0

    注：因為dbv要求file后面跟的必須是一個文件擴展名，所以如果用裸設備存儲的，就必須使用ln鏈接裸設備到一個文件，然后再用dbv對這個鏈接文件進行檢查。

上一篇：Oracle臨時表使用補充

下一篇：Oracle進程內存結構-如何察看Oracle進程消耗的內存