Mysql match against 全文搜索的用法

2024-07-24 12:38:38

字體：大中小

來源：轉載

供稿：網友

下面本文章介紹了Mysql match against 全文搜索及介紹一個mysql全文搜索的插件,有需要的朋友可參考一下.

對于大的數據庫，將數據裝載到一個沒有 FULLTEXT 索引的表中，然后再使用 ALTER TABLE (或 CREATE INDEX) 創建索引，這將是非常快的。將數據裝載到一個已經有 FULLTEXT 索引的表中，將是非常慢的.

1.使用Mysql全文檢索fulltext的先決條件

表的類型必須是MyISAM,建立全文檢索的字段類型必須是char,varchar,text

2.建立全文檢索先期配置

由于Mysql的默認配置是索引的詞的長度是4,所以要支持中文單字的話,首先更改這個.

*Unix用戶要修改my.cnf,一般此文件在/etc/my.cnf,如果沒有找到,先查找一下find / -name 'my.cnf'

在 [mysqld] 位置內加入:ft_min_word_len = 2

其它屬性還有:

ft_wordlist_charset = gbk

ft_wordlist_file = /home/soft/mysql/share/mysql/wordlist-gbk.txt

ft_stopword_file = /home/soft/mysql/share/mysql/stopwords-gbk.txt

稍微解釋一下:

ft_wordlist_charset 表示詞典的字符集,目前支持良好的有(UTF-8, gbk, gb2312, big5)

ft_wordlist_file 是詞表文件,每行包括一個詞及其詞頻(用若干制表符或空格分開,消岐專用)

ft_stopword_file 表示過濾掉不索引的詞表,一行一個.

ft_min_word_len 加入索引的詞的最小長度,缺省是 4,為了支持中文單字故改為 2

3.建立全文檢索

在建表中用FullText關鍵字標識字段,已存在的表用 ALTER TABLE (或 CREATE INDEX) 創建索引,代碼如下:

CREATE fulltext INDEX index_name ON table_name(colum_name);

4.使用全文檢索

在SELECT的WHERE字句中用MATCH函數,索引的關鍵詞用AGAINST標識,IN BOOLEAN MODE是只有含有關鍵字就行,不用在乎位置,是不是起啟位置,代碼如下:

SELECT * FROM articles WHERE MATCH (tags) AGAINST ('旅游' IN BOOLEAN MODE);

5.詳細的說明請參數Mysql官方網站

http://dev.mysql.com/doc/refman/5.1/zh/functions.html#fulltext-search

這是Mysql 5.1的,不過4.X也可以做為參考,基本一置.我用的就是Mysql 4.1.

MySQL支持全文索引(Full-Text) 已經很久了，目前，fulltext是一種只適用于MyISAM表的一個索引類型，而且對定義索引列的數據類型也有限制，只能是以下三種的組合char、 varchar、text。fulltext可以在創建表的同時就一起定義好，或者在表創建完成之后，通過語句alter table或create index來追加索引，總之先后的效果是一樣的，但是兩者的效率卻是存在很大差異的.

大量的實驗證明，對于大數量的表來說，先加載數據再來定義全文索引的速度要遠遠優于在一個已經定義好全文索引的表里面插入大量數據的速度。一定會問：這是問什么呢？其實，道理很簡單，前者只需要一次性對你的索引列表進行操作，排序比較都是在內存中完成，然后寫入硬盤；后者則要一條一條去硬盤中讀取索引表然后再進行比較最后寫入，自然這樣速度就會很慢。MySQL是通過match()和against()這兩個函數來實現它的全文索引查詢的功能。

match()中的字段名稱要和fulltext中定義的字段一致，如果采用boolean模式搜索，也允許只包括fulltext中的某個字段，不需要全部列出。against()中定義的是所要搜索的字符串以及要求數據庫通過哪種模式去執行全文索引的搜索查詢。下面通過一個例子分別介紹一下fulltext所支持的3中搜索模式。

Google的中文分詞技術采用的是美國一家名叫 Basis Technology（http://www.basistech.com）的公司提供的中文分詞技術，百度使用的是自己公司開發的分詞技術，中搜使用的是國內海量科技（http://www.hylanda.com）提供的分詞技術。業界評論海量科技的分詞技術目前被認為是國內最好的中文分詞技術，其分詞準確度超過99%，由此也使得中搜在搜索結果中搜索結果的錯誤率很低。

海量http://www.hylanda.com/server/

下載MySQL5.0.37--LinuxX86-Chinese+

不需要提前安裝mysql 然后依次執行,代碼如下:

groupadd mysql

useradd -g mysql mysql

cd /usr/local

gunzip < /root/mysql-chplus-5.0.37-linux-i686.tar.gz|tar xvf -

ln -s /usr/local/mysql-chplus-5.0.37 /usr/local/mysql

cd mysql

scritps/mysql_install_db --user=mysql

chown -R mysql data

chown -R mysql .

/usr/local/mysql/bin/mysqld_safe --user=mysql &

--即可測試:Vevb.com

create table test ( testid int(4) not null , testtitle varchar(256), testbody varchar(256), fulltext(testtitle,testbody));

insert into test values

->(NULL,'你好嗎','特斯他你好嗎'),

->(NULL,'好你好','好你好');

select * from test where match(testtitle,testbody) against('你好' in boolean mode);