應(yīng)用 java 的開(kāi)源庫(kù),編寫(xiě)一個(gè)搜索引擎,這個(gè)引擎能爬取一個(gè)網(wǎng)站的內(nèi)容。并根據(jù)網(wǎng)頁(yè)內(nèi)容進(jìn)行深度爬取,獲取所有相關(guān)的網(wǎng)頁(yè)地址和內(nèi)容,用戶可以通過(guò)關(guān)鍵詞,搜索所有相關(guān)的網(wǎng)址。
(1) 用戶可以指定爬取一個(gè)url對(duì)應(yīng)的網(wǎng)頁(yè)的內(nèi)容。 (2) 對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)行解析,并獲取其中所有的url鏈接地址。 (3) 用戶可以設(shè)定爬取深度,代表著從初始url對(duì)應(yīng)的頁(yè)面開(kāi)始,可以爬取其中所有的url對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)的url,以此類推。深度越大,能爬取到的網(wǎng)站越多。 (4) 對(duì)爬取到的url內(nèi)容進(jìn)行保存、建立索引。建立索引的內(nèi)容是url地址本身,和url對(duì)應(yīng)的網(wǎng)頁(yè)標(biāo)題。 (5) 用戶可以通過(guò)關(guān)鍵詞對(duì)網(wǎng)址進(jìn)行搜索,找出有該關(guān)鍵詞的url地址。 (6) 建立索引和搜索索引的過(guò)程能智能識(shí)別中文關(guān)鍵詞,能對(duì)關(guān)鍵詞進(jìn)行分詞操作。 (7) 用戶可以指定保存索引的地址、初始url、爬取深度、進(jìn)行搜索的關(guān)鍵詞和最大匹配項(xiàng)。
|
新聞熱點(diǎn)
疑難解答
圖片精選
網(wǎng)友關(guān)注