說一說 Oracle庫的Hang

2024-08-29 13:30:35

字體：大中小

來源：轉載

供稿：網(wǎng)友

本文來源于網(wǎng)頁設計愛好者web開發(fā)社區(qū)http://www.html.org.cn收集整理，歡迎訪問。

有些時侯，我當然指的是非常少的情況下，我們會感覺我們的庫”hang”了，加了隱號的意思是說有時真的是hang了，有一些則不是，是由于性能的問題引起的。我遇到過幾次hang的情況，結合著網(wǎng)上一些文章，把可能的原因、當時我們應該做的一些操作進行了如下的總結，不對的地方大家可以發(fā)mail給我:[email protected]。

一、數(shù)據(jù)庫hang時可能的現(xiàn)象

1、最直觀的是你的大部分的業(yè)務操作，比如說一個查詢都使用好長的時間，或根本就返回不出結果。這和簡單那種鎖表是有區(qū)別的。

2、在操作系統(tǒng)上用hp-unix用glance、aix用nmon及用sar做監(jiān)測會出現(xiàn)系統(tǒng)空閑的假象，表面看起來系統(tǒng)很閑，實際上系統(tǒng)已經(jīng)hang了。

3、查v$session_wait會出現(xiàn)大量的”latch free”、”enqueue”、” free buffer waits”等等待事件，有時后臺會出現(xiàn)大量的.trc文件，另外需要觀注一下$oracle_home/rdbms/log這個位置，有一些時侯trace文件會生成到這里。

二、oracle庫hang時一些有用的操作和查詢

1、如果要尋求oracle的技術支持，我們需要dump一下oracle的systemstate，操作如下
sql>conn / as sysdba;
sql> alter session set events 'immediate trace name systemstate level 10';
需要等幾分鐘的時間，這時在init<sid>.ora中所設置的user_dump_dest所標識的位置就可以找到這個.trc文件，一般比較大。

2、捕獲一些視圖的狀態(tài)值
sql>conn / as sysdba;
sql>set linesize 500
sql>set pagesize 0
sql>spool v_views.txt
sql> select * from v$parameter;
sql>select class, value, name from v$sysstat;
sql>select sid, id1, id2, type, lmode, request from v$lock;
sql>select l.latch#, n.name, h.pid, l.gets, l.misses, l.immediate_gets, l.immediate_misses, l.sleeps from v$latchname n, v$latchholder h, v$latch l where l.latch# = n.latch# and l.addr = h.laddr(+);
sql>select * from v$session_wait order by sid; --隔幾秒重復執(zhí)行3次。
sql>spool off

3、有條件的話用statspack生成了一個report，如果你對statspach不熟悉，可以參照http://www.itpub.net/showthread.php?s=&threadid=144448這個鏈接。

三、產生hang可能的幾個原因

1、開歸檔的情況下，歸檔位置所在的文件系統(tǒng)滿了，這時lgwr就會等待歸檔進程的完成，dml寫不了日志，都處于等待的狀態(tài)。

2、在hp的系統(tǒng)開異步io時，沒為dba的組設置mlock權限。正常來說oracle的啟動是會報錯的，可是有些時侯比如oracle8.1.6的版本就不報錯啟動，但是此時的異步io是有問題的，仔細查看你會在$oracle_home/rdbms/log看到大量的.trc文件。這種情形引的hang我遇到過。

3、由于異常進程引起的，我所說的是那些占用系統(tǒng)資源(cpu,memory)特別大的進程，這些進程一般占用cpu會達到90%以上，相對其它的進程比較突出?？梢酝ㄟ^hp-unix的glance、topas，ibm的nmod,topas,ps等工具進行監(jiān)測。

4、由于主機系統(tǒng)、陣列的某方面的瓶頸引起的，在實際中最普遍的應該是io的問題，比如io方面有瓶頸，則dbwr、lgwr就會引” free buffer waits”、” log buffer space”等一系列的等待事件，此時是性能的問題，感覺起來像hang。

5、也有bug的因素，我的庫都是最新的補丁，這方面的問題還沒遇到過。

四、幾點處理建議
當?shù)玫給racle的庫奇慢或hang時保持冷靜的頭腦很重要的，可以按如下的方法進行一些處理：

1、首先要到操作系統(tǒng)上去，用glance等工具進行一下觀察，看一下cpu、內存、交換區(qū)、磁盤的繁忙程度與平時是不是相似的，同時看一看有沒有占系統(tǒng)資源特別大的進程，有些時侯是這些進程引起的，通過v$process和v$session兩個視圖找到這oracle進程的sid,serial#,把它用alter system kill session ‘sid,serial#’;殺掉就行了。如果平時同樣的時段你的磁盤的繁忙程度是95%，而些時它為20%，當然是假設了，說明oracle的庫沒準真的hang了。

2、時間來得及的話執(zhí)行一下”二”中的語句是很必要的，這樣可以把這些信息提交給oracle的supporter，讓你們給你分析一下，查一下原因。

3、如果你的庫開歸檔了，出現(xiàn)hang的時侯一定要看一下歸檔日志的文件系統(tǒng)是不是滿了，做一個完備一些的網(wǎng)管系統(tǒng)是很必要的。

4、在hp系統(tǒng)上打開異步io時一定不要忘記為dba這個組加上mlock的權限，我就吃過這個虧。

5、時常的觀注一下v$session_wait或用statspack進行觀注一下等待事件，一般io相關的事件較多，為oracle打開異步io、多加幾個寫進程及為oracle數(shù)據(jù)文件所用的raw device使用條帶都是很必要的。與應用的開發(fā)商交流也很重要，沒準最近新上的一個應用就特耗io或特占cpu資源。

6、盡量要使用比較穩(wěn)定的oracle的版本,比如oracle8.1.7.4及oracel9.2.0.4(最新為 9.2.0.5)都很穩(wěn)定的，可以少去好多的麻煩。

上一篇：Oracle Database 10g:最佳新特性(第四周:高速的導出/導入)

下一篇：ORACLE DBA常用SQL腳本工具-&amp;gt;管理篇(1)