基于mysql全文索引的深入理解

2024-07-24 12:40:50

字體：大中小

來源：轉載

供稿：網友

前言：本文簡單講述全文索引的應用實例，MYSQL演示版本5.5.24。 Q:全文索引適用于什么場合？ A:全文索引是目前實現大數據搜索的關鍵技術。至于更詳細的介紹請自行百度，本文不再闡述。 -------------------------------------------------------------------------------- 一、如何設置？如圖點擊結尾處的{全文搜索}即可設置全文索引，不同MYSQL版本名字可能不同。二、設置條件 1.表的存儲引擎是MyISAM，默認存儲引擎InnoDB不支持全文索引（新版本MYSQL5.6的InnoDB支持全文索引） 2.字段類型：char、varchar和text 三、配置 my.ini配置文件中添加 # MySQL全文索引查詢關鍵詞最小長度限制 [mysqld] ft_min_word_len = 1 保存后重啟MYSQL，執行SQL語句復制代碼代碼如下: SHOW VARIABLES 查看ft_min_word_len是否設置成功，如果沒設置成功請確保 1.確認my.ini正確配置，注意不要搞錯my.ini的位置 2.確認mysql已經重啟，實在不行重啟電腦其他相關配置請自行百度。注：重新設置配置后，已經設置的索引需要重新設置生成索引四、SQL語法首先生成temp表復制代碼代碼如下: CREATE TABLE IF NOT EXISTS `temp` ( `id` int(11) NOT NULL AUTO_INCREMENT, `char` char(50) NOT NULL, `varchar` varchar(50) NOT NULL, `text` text NOT NULL, PRIMARY KEY (`id`), FULLTEXT KEY `char` (`char`), FULLTEXT KEY `varchar` (`varchar`), FULLTEXT KEY `text` (`text`) ) ENGINE=MyISAM DEFAULT CHARSET=utf8 AUTO_INCREMENT=2 ; INSERT INTO `temp` (`id`, `char`, `varchar`, `text`) VALUES (1, 'a bc 我知道 1 23', 'a bc 我知道 1 23', 'a bc 我知道 1 23'); 搜索`char`字段 'a' 值復制代碼代碼如下: SELECT * FROM `temp` WHERE MATCH(`char`) AGAINST ('a') 但是你會發現查詢無結果？！這時你也許會想：哎呀怎么回事，我明明按照步驟來做的啊，是不是那里漏了或者錯了？你不要著急，做程序是這樣的，出錯總是有的，靜下心來，著急是不能解決問題的。如果一個關鍵詞在50%的數據出現，那么這個詞會被當做無效詞。如果你想去除50%的現在請使用IN BOOLEAN MODE搜索復制代碼代碼如下: SELECT * FROM `temp` WHERE MATCH(`char`) AGAINST ('a' IN BOOLEAN MODE) 這樣就可以查詢出結果了，但是我們不推薦使用。全文索引的搜索模式的介紹自行百度。我們先加入幾條無用數據已解除50%限制復制代碼代碼如下: INSERT INTO `temp` ( `id` , `char` , `varchar` , `text` ) VALUES ( NULL , '7', '7', '7' ), ( NULL , '7', '7', '7' ), ( NULL , 'a,bc,我,知道,1,23', 'a,bc,我,知道,1,23', 'a,bc,我,知道,1,23' ), ( NULL , 'x', 'x', 'x' ); 這時你執行以下SQL語句都可以查詢到數據復制代碼代碼如下: SELECT * FROM `temp` WHERE MATCH(`char`) AGAINST ('a'); SELECT * FROM `temp` WHERE MATCH(`char`) AGAINST ('bc'); SELECT * FROM `temp` WHERE MATCH(`char`) AGAINST ('我'); SELECT * FROM `temp` WHERE MATCH(`char`) AGAINST ('知道'); SELECT * FROM `temp` WHERE MATCH(`char`) AGAINST ('1'); SELECT * FROM `temp` WHERE MATCH(`char`) AGAINST ('23'); 以下SQL搜索不到數據復制代碼代碼如下: SELECT * FROM `temp` WHERE MATCH(`char`) AGAINST ('b'); SELECT * FROM `temp` WHERE MATCH(`char`) AGAINST ('c'); SELECT * FROM `temp` WHERE MATCH(`char`) AGAINST ('知'); SELECT * FROM `temp` WHERE MATCH(`char`) AGAINST ('道'); SELECT * FROM `temp` WHERE MATCH(`char`) AGAINST ('2'); SELECT * FROM `temp` WHERE MATCH(`char`) AGAINST ('3'); 如果搜索多個詞，請用空格或者逗號隔開復制代碼代碼如下: SELECT * FROM `temp` WHERE MATCH(`char`) AGAINST ('a x'); SELECT * FROM `temp` WHERE MATCH(`char`) AGAINST ('a,x'); 上面的SQL都可以查詢到三條數據五、分詞看到這里你應該發現我們字段里的值也是分詞，不能直接插入原始數據。全文索引應用流程： 1.接收數據-數據分詞-入庫 2.接收數據-數據分詞-查詢現在有個重要的問題：怎么對數據分詞？數據分詞一般我們會使用一些成熟免費的分詞系統，當然如果你有能力也可以自己做分詞系統，這里我們推薦使用SCWS分詞插件。首先下載 1.php_scws.dll 注意對應版本 2.XDB詞典文件 3.規則集文件下載地址安裝scws 1.先建一個文件夾，位置不限，但是最好不要中文路徑。 2.解壓{規則集文件}，把xdb、三個INI文件全部扔到 D:/scws 3.把php_scws.dll復制到你的PHP目錄下的EXT文件夾里面 4.在 php.ini 的末尾加入以下幾行： [scws] ; 注意請檢查 php.ini 中的 extension_dir 的設定值是否正確, 否則請將 extension_dir 設為空， ; 再把 php_scws.dll 指定為絕對路徑。 extension = php_scws.dll scws.default.charset = utf8 scws.default.fpath = "D:/scws" 5.重啟你的服務器測試復制代碼代碼如下:

上一篇：深入探討:MySQL數據庫MyISAM與InnoDB存儲引擎的比較

下一篇：詳解MYSQL的備份還原(PHP實現)