国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 數(shù)據(jù)庫 > MySQL > 正文

MySQL的一條慢SQL查詢導(dǎo)致整個網(wǎng)站宕機的解決方法

2020-01-18 22:19:53
字體:
供稿:網(wǎng)友

直接切入正題吧:

通常來說,我們看到的慢查詢一般還不致于導(dǎo)致掛站,頂多就是應(yīng)用響應(yīng)變慢
不過這個恰好今天被我撞見了,一個慢查詢把整個網(wǎng)站搞掛了
先看看這個SQL張撒樣子:

# Query_time: 70.472013 Lock_time: 0.000078 Rows_sent: 7915203 Rows_examined: 15984089 Rows_affected: 0
# Bytes_sent: 1258414478
use js_sku;
SET timestamp=1465850117;
SELECT 
ss_id, ss_sa_id, ss_si_id, ss_av_zid, ss_av_fid, ss_artno,
ss_av_zvalue, ss_av_fvalue, ss_av_zpic, ss_av_fpic, ss_number,
ss_sales, ss_cprice, ss_price, ss_stock, ss_orderid, ss_status,
ss_add_time, ss_lastmodify
FROM js_sgoods_sku
WHERE ss_si_id = 0 AND ss_status > 0
ORDER BY
ss_orderid DESC, ss_av_fid ASC;
這里貼出來的就是 mysql slow log 的信息,查詢時間用了高達(dá) 70s!!
看到慢查詢我們一般第一反應(yīng)是這個 語句沒有用到索引? 或者是索引不合理么? 那我們會去看看執(zhí)行計劃:

mysql> explain SELECT 
-> ss_id, ss_sa_id, ss_si_id, ss_av_zid, ss_av_fid, ss_artno,
-> ss_av_zvalue, ss_av_fvalue, ss_av_zpic, ss_av_fpic, ss_number,
-> ss_sales, ss_cprice, ss_price, ss_stock, ss_orderid, ss_status,
-> ss_add_time, ss_lastmodify
-> FROM js_sgoods_sku
-> WHERE ss_si_id = 0 AND ss_status > 0
-> ORDER BY
-> ss_orderid DESC, ss_av_fid ASC;
+----+-------------+---------------+------+---------------+----------+---------+-------+---------+-----------------------------+
| id | select_type | table | type | possible_keys | key | key_len | ref | rows | Extra |
+----+-------------+---------------+------+---------------+----------+---------+-------+---------+-----------------------------+
| 1 | SIMPLE | js_sgoods_sku | ref | ss_si_id | ss_si_id | 4 | const | 9516091 | Using where; Using filesort |
+----+-------------+---------------+------+---------------+----------+---------+-------+---------+-----------------------------+
1 row in set (0.00 sec)

這個看起來似乎用到了索引,可是為什么掃描到行還是這么多呢? 那我們就去看看表結(jié)構(gòu)了,期望能從中找到點有價值的東西:
我們看到如下可用信息:
KEY `ss_si_id` (`ss_si_id`,`ss_av_zid`,`ss_av_fid`) USING BTREE,
`ss_si_id` int(11) unsigned NOT NULL DEFAULT '0' COMMENT '對應(yīng)js_sgoods_info.si_id',

我們看到 索引似乎還能比較能夠接受,但是我們看到 這個 ss_si_id 這個字段實際上是 goods_info 表的主鍵,也就是說它的離散程度應(yīng)該是很大的,也就是區(qū)分度很大。
其實到這一步我們基本上可以認(rèn)為 是由于我們這個表里邊有很多 ss_si_id=0 導(dǎo)致,不過我們可以進(jìn)一步的來證實我們的猜想:

1. 首先我們可以先確定我們的統(tǒng)計信息沒有問題
2. 其次我們再count ss_si_id=0 的這個值有多少數(shù)據(jù),來進(jìn)一步驗證我們的猜想。

那么我們先查看以下這個索引的統(tǒng)計信息:
xiean@localhost:js_sku 03:27:42>show index from js_sgoods_sku;
+---------------+------------+----------+--------------+-------------+-----------+-------------+----------+--------+------+------------+---------+---------------+
| Table | Non_unique | Key_name | Seq_in_index | Column_name | Collation | Cardinality | Sub_part | Packed | Null | Index_type | Comment | Index_comment |
+---------------+------------+----------+--------------+-------------+-----------+-------------+----------+--------+------+------------+---------+---------------+
| js_sgoods_sku | 0 | PRIMARY | 1 | ss_id      | A | 18115773 | NULL | NULL | | BTREE | | |
| js_sgoods_sku | 1 | ss_si_id | 1 | ss_si_id   | A  | 1811577  | NULL | NULL | | BTREE | | |
| js_sgoods_sku | 1 | ss_si_id | 2 | ss_av_zid | A | 6038591  | NULL | NULL | | BTREE | | |
| js_sgoods_sku | 1 | ss_si_id | 3 | ss_av_fid | A | 18115773 | NULL | NULL | | BTREE | | |
| js_sgoods_sku | 1 | IDX_001 | 1 | ss_sa_id | A | 3623154   | NULL | NULL | | BTREE | | |
+---------------+------------+----------+--------------+-------------+-----------+-------------+----------+--------+------+------------+---------+---------------+

那么可以看到以下問題:
我們的ss_si_id 這個字段并沒有我們表面上看到的 因為關(guān)聯(lián)了某個表的主鍵,它的Cardinality 值就應(yīng)該接近于 PRIMARY 的值。而是差別比較大的,難道是 索引的統(tǒng)計信息不準(zhǔn)確? 那我們嘗試重新收集下索引的統(tǒng)計信息:
xiean@localhost:js_sku 03:27:47>analyze table js_sgoods_sku;
+----------------------+---------+----------+----------+
| Table | Op | Msg_type | Msg_text |
+----------------------+---------+----------+----------+
| js_sku.js_sgoods_sku | analyze | status | OK |
+----------------------+---------+----------+----------+

but ,我們再次查看 這些索引的統(tǒng)計信息:
xiean@localhost:js_sku 03:28:14>show index from js_sgoods_sku;
+---------------+------------+----------+--------------+-------------+-----------+-------------+----------+--------+------+------------+---------+---------------+
| Table | Non_unique | Key_name | Seq_in_index | Column_name | Collation | Cardinality | Sub_part | Packed | Null | Index_type | Comment | Index_comment |
+---------------+------------+----------+--------------+-------------+-----------+-------------+----------+--------+------+------------+---------+---------------+
| js_sgoods_sku | 0 | PRIMARY | 1 | ss_id      | A | 18621349 | NULL | NULL | | BTREE | | |
| js_sgoods_sku | 1 | ss_si_id | 1 | ss_si_id    | A | 1551779  | NULL | NULL | | BTREE | | |
| js_sgoods_sku | 1 | ss_si_id | 2 | ss_av_zid | A | 6207116   | NULL | NULL | | BTREE | | |
| js_sgoods_sku | 1 | ss_si_id | 3 | ss_av_fid | A | 18621349 | NULL | NULL | | BTREE | | |
| js_sgoods_sku | 1 | IDX_001 | 1 | ss_sa_id | A | 3724269   | NULL | NULL | | BTREE | | |
+---------------+------------+----------+--------------+-------------+-----------+-------------+----------+--------+------+------------+---------+---------------+

我們可以看到 ss_si_id 的離散程度(Cardinality) 沒有增加反而有向下波動的趨勢,因為這個信息是采集部分頁的來的,而每個頁上邊數(shù)據(jù)分布是不一樣的,導(dǎo)致我們這個索引收集的統(tǒng)計信息就回有所變化。

好吧,到這里我們可以認(rèn)為我們的 統(tǒng)計信息沒有失效,那么我們就看數(shù)據(jù)的分別情況咯:

+--------------++----------++------------------+
| ss_si_id=0; || count(*) || 7994788/19048617 |
+--------------++----------++------------------+
| 7994788     || 19048617 ||    0.4197           |
+--------------++----------++------------------+

額,不看不知道,一看嚇一跳:我們這個表里邊 存在有大量的 ss_si_id=0 的情況,占了整個表數(shù)據(jù)量的 41% !??!


好吧問題找到了,那么接下來我們需要知道,為什么這個SQL語句會導(dǎo)致掛站呢?

我們通過觀看應(yīng)用程序服務(wù)器的監(jiān)控看到一些信息:我們的 goods_service 這個服務(wù)異常:異常情況如下:

1. cpu 長期占用100% + 
2. jstatck pid 無法dump 內(nèi)存堆棧信息,必須強制dump -F
3. dump 出來的內(nèi)存信息發(fā)現(xiàn),這個進(jìn)程里邊所有線程 均處于 BLOCKED 狀態(tài)
4. 通過jstat -gcutil 看到 FGC 相當(dāng)頻繁,10s左右就FGC一次
5. 內(nèi)存占用超過了分配的內(nèi)存

那么最終的原因就是因為上邊的慢查詢 查詢了大量數(shù)據(jù)(最多有700w行數(shù)據(jù)),導(dǎo)致goods_service 內(nèi)存暴漲,出現(xiàn)服務(wù)無法響應(yīng),進(jìn)一步的惡化就是掛占


OK,知道了為什么會掛占,那么我們是如何解決這個問題的呢?
既然我們知道是由于查詢了 ss_si_id=0 導(dǎo)致的,那么我們屏蔽掉這個SQL不就好了么。屏蔽的辦法可以有多種:
1. 我們程序邏輯判斷一下這類型的 查詢 如果 有查詢 ss_si_id=0 的一律封殺掉
2. 我們改改SQL配置文件,修改SQL語句

我們發(fā)現(xiàn)DB服務(wù)器上存在大量的 這個慢查詢,而且DB服務(wù)器負(fù)載已經(jīng)從 0.xx 飆升到了 50+ 了,隨之而來的連接數(shù)也飆升的厲害, 如果再不及時處理,估計DB服務(wù)器也掛掉了

 

那么我們最終采取以下處理辦法:
1.運維配合研發(fā)修改SQL語句 我們在這個WHERE 條件中添加了一個條件: AND ss_si_id <> 0 ,在MySQL之行計劃層屏蔽掉此SQL;
2.DBA 開啟kill 掉這個查詢語句,避免DB服務(wù)器出現(xiàn)down機的情況,當(dāng)然這個就用到了我們的 pt-kill 工具,不得不說這個工具相當(dāng)好用


總結(jié)(經(jīng)驗與教訓(xùn)):
1.類似這種查詢 default 值的 SQL ,我們應(yīng)該從源頭上杜絕這類查詢
2.限制查詢結(jié)果集大小,避免因查詢結(jié)果集太大導(dǎo)致服務(wù)死掉

發(fā)表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發(fā)表
主站蜘蛛池模板: 镇江市| 南乐县| 济阳县| 华池县| 太康县| 辽阳市| 双柏县| 闸北区| 泽库县| 通道| 磴口县| 嵊州市| 高雄市| 泾源县| 呼图壁县| 乡城县| 丰都县| 崇仁县| 洪洞县| 洱源县| 化德县| 泊头市| 蕉岭县| 禄劝| 莲花县| 凤山市| 琼中| 本溪| 张家川| 通渭县| 湖州市| 七台河市| 启东市| 石门县| 平昌县| 峨山| 龙游县| 龙胜| 龙胜| 化德县| 南宫市|