前言:本文簡單講述全文索引的應用實例,MYSQL演示版本5.5.24。 Q:全文索引適用于什么場合? A:全文索引是目前實現大數據搜索的關鍵技術。 至于更詳細的介紹請自行百度,本文不再闡述。 -------------------------------------------------------------------------------- 一、如何設置? 如圖點擊結尾處的{全文搜索}即可設置全文索引,不同MYSQL版本名字可能不同。 二、設置條件 1.表的存儲引擎是MyISAM,默認存儲引擎InnoDB不支持全文索引(新版本MYSQL5.6的InnoDB支持全文索引) 2.字段類型:char、varchar和text 三、配置 my.ini配置文件中添加 # MySQL全文索引查詢關鍵詞最小長度限制 [mysqld] ft_min_word_len = 1 保存后重啟MYSQL,執行SQL語句 復制代碼 代碼如下: SHOW VARIABLES 查看ft_min_word_len是否設置成功,如果沒設置成功請確保 1.確認my.ini正確配置,注意不要搞錯my.ini的位置 2.確認mysql已經重啟,實在不行重啟電腦 其他相關配置請自行百度。 注:重新設置配置后,已經設置的索引需要重新設置生成索引 四、SQL語法 首先生成temp表 復制代碼 代碼如下: CREATE TABLE IF NOT EXISTS `temp` ( `id` int(11) NOT NULL AUTO_INCREMENT, `char` char(50) NOT NULL, `varchar` varchar(50) NOT NULL, `text` text NOT NULL, PRIMARY KEY (`id`), FULLTEXT KEY `char` (`char`), FULLTEXT KEY `varchar` (`varchar`), FULLTEXT KEY `text` (`text`) ) ENGINE=MyISAM DEFAULT CHARSET=utf8 AUTO_INCREMENT=2 ; INSERT INTO `temp` (`id`, `char`, `varchar`, `text`) VALUES (1, 'a bc 我 知道 1 23', 'a bc 我 知道 1 23', 'a bc 我 知道 1 23'); 搜索`char`字段 'a' 值 復制代碼 代碼如下: SELECT * FROM `temp` WHERE MATCH(`char`) AGAINST ('a') 但是你會發現查詢無結果?! 這時你也許會想:哎呀怎么回事,我明明按照步驟來做的啊,是不是那里漏了或者錯了? 你不要著急,做程序是這樣的,出錯總是有的,靜下心來,著急是不能解決問題的。 如果一個關鍵詞在50%的數據出現,那么這個詞會被當做無效詞。 如果你想去除50%的現在請使用IN BOOLEAN MODE搜索 復制代碼 代碼如下: SELECT * FROM `temp` WHERE MATCH(`char`) AGAINST ('a' IN BOOLEAN MODE) 這樣就可以查詢出結果了,但是我們不推薦使用。 全文索引的搜索模式的介紹自行百度。 我們先加入幾條無用數據已解除50%限制 復制代碼 代碼如下: INSERT INTO `temp` ( `id` , `char` , `varchar` , `text` ) VALUES ( NULL , '7', '7', '7' ), ( NULL , '7', '7', '7' ), ( NULL , 'a,bc,我,知道,1,23', 'a,bc,我,知道,1,23', 'a,bc,我,知道,1,23' ), ( NULL , 'x', 'x', 'x' ); 這時你執行以下SQL語句都可以查詢到數據 復制代碼 代碼如下: SELECT * FROM `temp` WHERE MATCH(`char`) AGAINST ('a'); SELECT * FROM `temp` WHERE MATCH(`char`) AGAINST ('bc'); SELECT * FROM `temp` WHERE MATCH(`char`) AGAINST ('我'); SELECT * FROM `temp` WHERE MATCH(`char`) AGAINST ('知道'); SELECT * FROM `temp` WHERE MATCH(`char`) AGAINST ('1'); SELECT * FROM `temp` WHERE MATCH(`char`) AGAINST ('23'); 以下SQL搜索不到數據 復制代碼 代碼如下: SELECT * FROM `temp` WHERE MATCH(`char`) AGAINST ('b'); SELECT * FROM `temp` WHERE MATCH(`char`) AGAINST ('c'); SELECT * FROM `temp` WHERE MATCH(`char`) AGAINST ('知'); SELECT * FROM `temp` WHERE MATCH(`char`) AGAINST ('道'); SELECT * FROM `temp` WHERE MATCH(`char`) AGAINST ('2'); SELECT * FROM `temp` WHERE MATCH(`char`) AGAINST ('3'); 如果搜索多個詞,請用空格或者逗號隔開 復制代碼 代碼如下: SELECT * FROM `temp` WHERE MATCH(`char`) AGAINST ('a x'); SELECT * FROM `temp` WHERE MATCH(`char`) AGAINST ('a,x'); 上面的SQL都可以查詢到三條數據 五、分詞 看到這里你應該發現我們字段里的值也是分詞,不能直接插入原始數據。 全文索引應用流程: 1.接收數據-數據分詞-入庫 2.接收數據-數據分詞-查詢 現在有個重要的問題:怎么對數據分詞? 數據分詞一般我們會使用一些成熟免費的分詞系統,當然如果你有能力也可以自己做分詞系統,這里我們推薦使用SCWS分詞插件。 首先下載 1.php_scws.dll 注意對應版本 2.XDB詞典文件 3.規則集文件 下載地址 安裝scws 1.先建一個文件夾,位置不限,但是最好不要中文路徑。 2.解壓{規則集文件},把xdb、三個INI文件全部扔到 D:/scws 3.把php_scws.dll復制到你的PHP目錄下的EXT文件夾里面 4.在 php.ini 的末尾加入以下幾行: [scws] ; 注意請檢查 php.ini 中的 extension_dir 的設定值是否正確, 否則請將 extension_dir 設為空, ; 再把 php_scws.dll 指定為絕對路徑。 extension = php_scws.dll scws.default.charset = utf8 scws.default.fpath = "D:/scws" 5.重啟你的服務器 測試 復制代碼 代碼如下: