国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁(yè) > 網(wǎng)站 > CMS建站 > 正文

08CMS v3.4 版本采集系統(tǒng)使用教程

2024-08-30 18:57:23
字體:
來(lái)源:轉(zhuǎn)載
供稿:網(wǎng)友
雖然現(xiàn)在壇子里人氣不咋滴,有不少提問(wèn)貼沒(méi)有解決,但是這些都會(huì)過(guò)去,G大說(shuō)再進(jìn)行一輪開(kāi)發(fā)之后就將進(jìn)入市場(chǎng)推廣了,也就意味著官方不會(huì)再一味的閉門(mén)開(kāi)發(fā)
這個(gè)所謂的 “再一輪開(kāi)發(fā)”或許就是指V3.5版本吧,GBK編碼版本已經(jīng)發(fā)布了,再出UTF8的就應(yīng)該算是完成了吧,具體還看官方的日程安排了
這個(gè)教程版的版主也當(dāng)了不短的一段時(shí)間了,最郁悶的事就是老看見(jiàn)人在那吼:不會(huì)用啊,文檔太少了……云云。汗顏哪,貌似有點(diǎn)占著茅坑不拉屎的嫌疑
這也不能全怪我啊,我也很想吼一句:G大你丫也太低調(diào)了點(diǎn)吧,讓不讓人活了,自己不出來(lái)也就算了,多少給個(gè)日程表,俺也好有個(gè)方向啊,瞎子走路還有盲棍探路呢,好歹給老娘指條路啊

---------------- 美麗分割線 ----------------

抱怨到這里結(jié)束吧,上正題
08CMS采集系統(tǒng)的使用說(shuō)明
因?yàn)?8CMS架構(gòu)上的特殊性,目前市面上還沒(méi)有完美支持的外部采集器提供(我沒(méi)看到,有知道的分享下哈)
單篇采集一般的采集器都能應(yīng)付,問(wèn)題主要出在合輯的采集
不過(guò)即使有我也會(huì)選擇系統(tǒng)自帶的采集器,畢竟合適的才是最好的,系統(tǒng)自帶的采集器明顯是量身定做的
個(gè)人感覺(jué),即使目前系統(tǒng)自帶的采集器還有不少不足,但是也不是一般的采集器能替代的,契合度上的先天優(yōu)勢(shì)哈
下面開(kāi)始介紹08CMS內(nèi)置的采集系統(tǒng)
第一、登陸后臺(tái)進(jìn)入采集管理
[attach]1646[/attach]
那些個(gè)什么怎么登陸后臺(tái),點(diǎn)擊先后順序就別問(wèn)我了哈

第二、第一次使用采集系統(tǒng),系統(tǒng)會(huì)要求添加采集模型
所謂采集模型,就是搭建采集的框架,設(shè)定需要采集的字段以及采集到的內(nèi)容添加至哪個(gè)文檔模型
這里的設(shè)置有個(gè)讓人小郁悶的地方,只要填寫(xiě)模型名稱就可以建立模型
相關(guān)設(shè)置得在建立之后才能編輯,個(gè)人覺(jué)得在建立模型中設(shè)置采集模型相關(guān)參數(shù)比較靠譜
2.jpg

第三步、編輯采集模型
請(qǐng)看圖解:
圖一、編輯模型
4.jpg
圖二、
模型編輯界面
3.jpg

到這里,采集模型的添加完成了
下面開(kāi)始添加采集任務(wù)
第四步、采集任務(wù)的添加
5.jpg
下面是采集任務(wù)界面圖解,請(qǐng)仔細(xì)閱讀圖中注釋


第六步、重頭戲開(kāi)始了,采集規(guī)則的設(shè)置
首先分析采集目標(biāo)頁(yè)的代碼結(jié)構(gòu),這里以IE瀏覽器為例
查看采集目標(biāo)頁(yè),點(diǎn)擊IE的
頁(yè)面 ---- 查看源文件
很簡(jiǎn)單就能看到目標(biāo)頁(yè)面的代碼結(jié)構(gòu)
采集頁(yè)面的代碼分析,主要是找采集目標(biāo)的特征
頁(yè)面太大這里不好拿上來(lái)解析,上圖解釋網(wǎng)址采集界面相關(guān)規(guī)則的設(shè)置
7.jpg
點(diǎn)擊提交保存這里的設(shè)置
我很奇怪為什么不直接跳到下一步內(nèi)容采集而是提交之后回到這個(gè)頁(yè)面

在這個(gè)截圖頁(yè)面的下面還有一部分,稱之為追溯網(wǎng)址規(guī)則
這個(gè)不是非必填項(xiàng),一般不用
而且這個(gè)只能得到一個(gè)網(wǎng)址,而不是網(wǎng)址列表,個(gè)人感覺(jué)有點(diǎn)雞肋,附上官方的解釋
追溯網(wǎng)址:內(nèi)容網(wǎng)址的一種延伸。有部分被采集文檔,個(gè)別字段的內(nèi)容不在主內(nèi)容頁(yè),而是在附加頁(yè)面,特別是有關(guān)附件的內(nèi)容,追溯網(wǎng)址用于采集其附加頁(yè)面網(wǎng)址,每個(gè)內(nèi)容網(wǎng)址可追溯兩級(jí)附加頁(yè)面,追溯網(wǎng)址2是在追溯網(wǎng)址1的基礎(chǔ)上采集的。
追溯概念舉例:我們?nèi)ハ螺d站的時(shí)候,往往點(diǎn)進(jìn)去的頁(yè)面只有軟件信息說(shuō)明和一個(gè)或多個(gè)進(jìn)入下載頁(yè)面的鏈接
注意:這里是進(jìn)入下載頁(yè)面的鏈接,而不是下載地址。當(dāng)我們要下載該軟件的時(shí)候要先打開(kāi)這個(gè)下載頁(yè)面才能看到下載地址
這里就是一級(jí)追溯,因?yàn)槲覀円冱c(diǎn)一次才能到達(dá)下載頁(yè)面。這時(shí)我們的1級(jí)追溯地址就是那個(gè)進(jìn)入下載頁(yè)面的鏈接

接下來(lái)是內(nèi)容頁(yè)的規(guī)則
同樣用圖來(lái)解析,本處只選用一個(gè)字段的規(guī)則設(shè)置為例,其他字段基本類同
8.jpg

入庫(kù)參數(shù)設(shè)置
9.jpg
如果是非合輯也就是單文檔采集,那么規(guī)則到此就設(shè)置結(jié)束了
經(jīng)過(guò)測(cè)試沒(méi)問(wèn)題即可進(jìn)行采集
如果你有足夠的信心,完全可以不用測(cè)試直接采集哦

如果是合輯的采集,比如小說(shuō),那么采集的設(shè)置還只進(jìn)行到一半哦
合輯的采集還需要設(shè)置子任務(wù)的的規(guī)則
如圖:
10.jpg
子任務(wù)在父任務(wù)下方,而且任務(wù)名稱前有縮進(jìn)
子任務(wù)的規(guī)則設(shè)置跟父任務(wù)的規(guī)則設(shè)置基本相同,不贅述了

理論上采集到這里就結(jié)束了,開(kāi)始愉快的采集之旅吧,個(gè)人感覺(jué)還是蠻有快感的
采集,你可以自己按照網(wǎng)址、內(nèi)容、入庫(kù)一步步來(lái)
直接 一鍵 采集就更干脆了
不過(guò)這里有個(gè)讓人吐血的問(wèn)題
采集任務(wù)除非是合輯采集中的父任務(wù)跟子任務(wù)
不然你就得一個(gè)個(gè)任務(wù)一鍵過(guò)去,不讓排隊(duì)。。。。

雖然有不少地方有不足,不過(guò)總體上來(lái)說(shuō)采集體驗(yàn)還是良好的
教程就到這里結(jié)束了,有什么不明白的可以跟帖提出

2.jpg

發(fā)表評(píng)論 共有條評(píng)論
用戶名: 密碼:
驗(yàn)證碼: 匿名發(fā)表
主站蜘蛛池模板: 德州市| 霍邱县| 麻城市| 桦甸市| 东安县| 共和县| 射洪县| 灵山县| 唐河县| 铜川市| 安阳县| 福贡县| 台东市| 五台县| 威宁| 曲周县| 肇源县| 临江市| 安顺市| 黄龙县| 宁乡县| 和林格尔县| 邻水| 郑州市| 碌曲县| 河池市| 余庆县| 兴安县| 黑龙江省| 安乡县| 泾源县| 宁晋县| 原阳县| 涞源县| 阿拉尔市| SHOW| 即墨市| 柳江县| 泽普县| 贵德县| 江口县|