mysql中過濾重復記錄之distinct用法

2024-07-24 12:38:42

字體：大中小

來源：轉載

供稿：網友

本文章主要是講述了關于利用mysql中distinct來過濾一些重啟的記錄,有需要的朋友可參考一下.

下面我們就通過幾個簡單的 Query 示例來展示一下 DISTINCT 的實現.

1.首先看看通過松散索引掃描完成 DISTINCT 的操作,代碼如下:

sky@localhost : example 11:03:41> EXPLAIN SELECT DISTINCT group_id

    -> FROM group_messageG

*************************** 1. row ***************************

           id: 1  --Vevb.com

  SELECT_type: SIMPLE

        table: group_message

         type: range

possible_keys: NULL

          key: idx_gid_uid_gc

      key_len: 4

          ref: NULL

         rows: 10

        Extra: Using index for group-by

1 row in set (0.00 sec)

我們可以很清晰的看到,執行計劃中的 Extra 信息為“Using index for group-by”,這代表什么意思？為什么我沒有進行 GROUP BY 操作的時候，執行計劃中會告訴我這里通過索引進行了 GROUP BY 呢？其實這就是于 DISTINCT 的實現原理相關的,在實現 DISTINCT的過程中，同樣也是需要分組的，然后再從每組數據中取出一條返回給客戶端。而這里的 Extra 信息就告訴我們，MySQL 利用松散索引掃描就完成了整個操作。當然，如果 MySQL Query Optimizer 要是能夠做的再人性化一點將這里的信息換成“Using index for distinct”那就更好更容易讓人理解了，呵呵。

2.我們再來看看通過緊湊索引掃描的示例,代碼如下:

sky@localhost : example 11:03:53>  EXPLAIN SELECT DISTINCT user_id

    -> FROM group_message

    -> WHERE group_id = 2G

*************************** 1. row ***************************

           id: 1

  SELECT_type: SIMPLE

        table: group_message

         type: ref

possible_keys: idx_gid_uid_gc

          key: idx_gid_uid_gc

      key_len: 4

          ref: const

         rows: 4

        Extra: Using WHERE; Using index

1 row in set (0.00 sec)

這里的顯示和通過緊湊索引掃描實現 GROUP BY 也完全一樣,實際上,這個 Query 的實現過程中,MySQL 會讓存儲引擎掃描 group_id = 2 的所有索引鍵,得出所有的 user_id,然后利用索引的已排序特性,每更換一個 user_id 的索引鍵值的時候保留一條信息,即可在掃描完所有 gruop_id = 2 的索引鍵的時候完成整個 DISTINCT 操作.

3.下面我們在看看無法單獨使用索引即可完成 DISTINCT 的時候會是怎樣,代碼如下:

sky@localhost : example 11:04:40> EXPLAIN SELECT DISTINCT user_id

    -> FROM group_message

    -> WHERE group_id > 1 AND group_id < 10G

*************************** 1. row ***************************

           id: 1

  SELECT_type: SIMPLE

        table: group_message

         type: range

possible_keys: idx_gid_uid_gc

          key: idx_gid_uid_gc

      key_len: 4

          ref: NULL

         rows: 32

        Extra: Using WHERE; Using index; Using temporary

1 row in set (0.00 sec)

當 MySQL 無法僅僅依賴索引即可完成 DISTINCT 操作的時候，就不得不使用臨時表來進行相應的操作了。但是我們可以看到，在 MySQL 利用臨時表來完成 DISTINCT 的時候，和處理 GROUP BY 有一點區別，就是少了 filesort。實際上，在 MySQL 的分組算法中，并不一定非要排序才能完成分組操作的，這一點在上面的 GROUP BY 優化小技巧中我已經提到過了。實際上這里 MySQL 正是在沒有排序的情況下實現分組最后完成 DISTINCT 操作的，所以少了 filesort 這個排序操作。

4.最后再和 GROUP BY 結合試試看,代碼如下:

sky@localhost : example 11:05:06> EXPLAIN SELECT DISTINCT max(user_id)

    -> FROM group_message

    -> WHERE group_id > 1 AND group_id < 10

    -> GROUP BY group_idG

*************************** 1. row ***************************

           id: 1

  SELECT_type: SIMPLE

        table: group_message

         type: range

possible_keys: idx_gid_uid_gc

          key: idx_gid_uid_gc

      key_len: 4

          ref: NULL

         rows: 32

        Extra: Using WHERE; Using index; Using temporary; Using filesort

1 row in set (0.00 sec)

最后我們再看一下這個和 GROUP BY 一起使用帶有聚合函數的示例，和上面第三個示例相比，可以看到已經多了 filesort 排序操作了，正是因為我們使用了 MAX 函數的緣故。要取得分組后的 MAX 值，又無法使用索引完成操作，只能通過排序才行了。

在使用mysql時，有時需要查詢出某個字段不重復的記錄，雖然mysql提供有distinct這個關鍵字來過濾掉多余的重復記錄只保留一條，但往往只用它來返回不重復記錄的條數，而不是用它來返回不重記錄的所有值。其原因是distinct只能返回它的目標字段，而無法返回其它字段，這個問題讓我困擾了很久

下面先來看看例子,代碼如下:

table

id name

1 a

2 b

3 c

4 c

5 b

庫結構大概這樣,這只是一個簡單的例子,實際情況會復雜得多,比如我想用一條語句查詢得到name不重復的所有數據,那就必須使用distinct去掉多余的重復記錄,代碼如下:

select distinct name from table

得到的結果是:

name

a

b

c

好像達到效果了,可是,我想要得到的是id值呢？改一下查詢語句吧,代碼如下:

select distinct name, id from table

結果會是如下代碼:

id name

1 a

2 b

3 c

4 c

5 b

distinct怎么沒起作用？作用是起了的,不過他同時作用了兩個字段,也就是必須得id與name都相同的才會被排除,我們再改改查詢語句,代碼如下:

select id, distinct name from table

很遺憾,除了錯誤信息你什么也得不到,distinct必須放在開頭,難到不能把distinct放到where條件里？能,照樣報錯.

試了半天，也不行，最后在mysql手冊里找到一個用法，用group_concat(distinct name)配合group by name實現了我所需要的功能，興奮，天佑我也，趕快試試

報錯,郁悶,連mysql手冊也跟我過不去,先給了我希望,然后又把我推向失望,好狠那.

再仔細一查，group_concat函數是4.1支持，暈，我4.0的。沒辦法，升級，升完級一試，成功。。。。。。

終于搞定了，不過這樣一來，又必須要求客戶也升級了,突然靈機一閃，既然可以使用group_concat函數，那其它函數能行嗎？趕緊用count函數一試，成功，我。。。。。。。想哭啊，費了這么多工夫。。。。。。。。原來就這么簡單。。。。。。

現在將完整語句放出,代碼如下:

select id,name, count(distinct name) from table group by name

結果,代碼如下:

id name count(distinct name)

1 a 1

2 b 1

3 c 1

最后一項是多余的,不用管就行了,目的達到,哦,對,再順便說一句，group by 必須放在 order by 和 limit之前，不然會報錯,差不多了,我繼續忙碌。。。。。。

原文:這篇文章是我從別人那里轉來的，在自己的項目中也遇到了這樣的問題，我的sql語句是向下面這樣寫的:

SELECT attention_join.memberID,nickName,headpic,attention_join.time

FROM attention_join

JOIN member ON attention_join.memberID = member.memberID

JOIN member_meta ON member.memberID = member_meta.memberID

GROUP BY attention_join.memberID

ORDER BY attention_join.time DESC