国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁(yè) > CMS > 織夢(mèng)DEDE > 正文

dedecms織夢(mèng)自帶采集插件詳細(xì)圖文教程

2024-07-12 09:00:39
字體:
供稿:網(wǎng)友

看到很多網(wǎng)友都為織夢(mèng)(DEDE CMS)的采集教程頭疼,的確,官方出的教程太籠統(tǒng)了,什么都沒說,換個(gè)網(wǎng)站你什么都做不了,這個(gè)教程是最詳盡的教程,讓你一看即會(huì)


首先我們打開織夢(mèng)后臺(tái)點(diǎn)擊 采集——采集節(jié)點(diǎn)管理——增加新節(jié)點(diǎn)


 
這里我們以采集普通文章為例,我們選擇普通文章,然后確定


 
我們進(jìn)入了采集的設(shè)置頁(yè)面,填寫節(jié)點(diǎn)名稱,就是給這個(gè)新節(jié)點(diǎn)取個(gè)名字,這里你可以任意填寫。
然后打開你想要采集的文章列表頁(yè),這里我們以織夢(mèng)官網(wǎng)為例http://www.dedecms.com/web-manage/jianzhanxinde/打開這個(gè)頁(yè)面,右鍵——查看源文件
 
找到目標(biāo)頁(yè)面編碼,就在charset后面


 
頁(yè)面基本信息其他的一般就不用管了,填完了如圖
 


現(xiàn)在我們來填寫列表網(wǎng)址獲取規(guī)則
看看文章列表第一頁(yè)的地址http://www.dedecms.com/web-manage/jianzhanxinde/list_49_1.html
對(duì)比第二頁(yè)的地址http://www.dedecms.com/web-manage/jianzhanxinde/list_49_2.html
我們發(fā)現(xiàn)了他們除了49_后面的數(shù)字不一樣,其他的都一樣,所以我們可以這樣寫
http://www.dedecms.com/web-manage/jianzhanxinde/list_49_(*).html
就是把1換成了(*) 因?yàn)檫@里只有2頁(yè),所以我們就填從1到2 每頁(yè)遞增當(dāng)然是1了,2-1...是等于1吧
這里我們就填寫完了 


可能大家采集的有些列表沒有規(guī)則,那就只有手工指定列表網(wǎng)址了,如圖
 


每行寫一個(gè)頁(yè)面地址
列表規(guī)則寫完了,我們就開始寫文章網(wǎng)址匹配規(guī)則了,回到文章列表頁(yè)
右鍵查看源文件 找到區(qū)域開始的HTML,就是找文章列表開始的標(biāo)志。


 


我們很容易的找到了如圖中的“新聞列表” 。從這里開始,后面就是文章列表里
我們?cè)僬椅恼铝斜斫Y(jié)束的HTML


 


就是這個(gè)了,一個(gè)很容易找到的標(biāo)志


如果鏈接中含有圖片: 不處理 采集為縮略圖 這里根據(jù)自己的需要選擇
對(duì)區(qū)域網(wǎng)址進(jìn)行再次篩選:
(使用正則表達(dá)式) 

必須包含: (優(yōu)先級(jí)高于后者)
 不能包含:


打開源文件,我們可以很清楚的看到,文章鏈接都是以.html結(jié)束的
所以,我們?cè)诒仨毎竺嫣?html 如果遇到有些列表很麻煩,還可以填寫后面的不能包含


 


 
我們點(diǎn)擊保存設(shè)置進(jìn)入下一步,可以看到我們獲得的文章網(wǎng)址
看到這些就是對(duì)的了,我們保存信息進(jìn)入下一步設(shè)置內(nèi)容字段獲取規(guī)則
我們看看文章有沒有分頁(yè),隨便進(jìn)入一篇文章看看。。我們看到這里的文章沒有分頁(yè)
所以這里的我們就默認(rèn)了


 


我們現(xiàn)在來找文章標(biāo)題等等 隨便進(jìn)入一篇文章,右鍵查看源文件
看看這些 

 


依照源碼填寫 

 


我們?cè)賮硖顚懳恼聝?nèi)容的開始,結(jié)束
和上面的一樣,找到開始和結(jié)束標(biāo)志
開始: 

 


結(jié)束: 


 

 


你想過濾文章中的什么內(nèi)容就到過濾規(guī)則里寫吧,比如要過濾文章中的圖片

 


選擇常用規(guī)則 

 


再勾選IMG  然后確定
這樣我們就把正文中的圖片過濾了
設(shè)置完畢后點(diǎn)保存設(shè)置并預(yù)覽


 


這樣一個(gè)采集規(guī)則就寫好了,很簡(jiǎn)單吧有些網(wǎng)站很難寫,可要多下點(diǎn)功夫了哦
我們點(diǎn)保存并開始采集——開始采集網(wǎng)頁(yè) 一會(huì)的功夫就采集完了


 


我們看看我們采集到的文章 


 

 


456 
看來是成功了,我們導(dǎo)出數(shù)據(jù)吧 


 


 
  首先選擇要導(dǎo)入到的欄目,按“請(qǐng)選擇”那里即可在彈出的窗口中選擇你需要導(dǎo)入的欄目發(fā)布選項(xiàng)這里一般默認(rèn)即可,除非你不想馬上發(fā)布。每批導(dǎo)入默認(rèn)是30條,這里修改與否都無所謂,附帶選項(xiàng)一般選“排除重復(fù)標(biāo)題”,至于自動(dòng)生成HTML那個(gè)選項(xiàng)建議先別生成,因?yàn)槲覀冞€要去批量提取摘要和關(guān)鍵字。


發(fā)表評(píng)論 共有條評(píng)論
用戶名: 密碼:
驗(yàn)證碼: 匿名發(fā)表
主站蜘蛛池模板: 石家庄市| 沭阳县| 祁东县| 桐梓县| 凤城市| 广元市| 曲水县| 航空| 图木舒克市| 灵山县| 项城市| 积石山| 南澳县| 太原市| 安西县| 曲沃县| 道孚县| 阿合奇县| 灌阳县| 特克斯县| 健康| 平罗县| 乌鲁木齐县| 伊川县| 铜梁县| 内黄县| 武城县| 通州市| 读书| 广安市| 邹平县| 玉田县| 石嘴山市| 黑水县| 龙里县| 习水县| 桂林市| 周至县| 梓潼县| 临汾市| 揭西县|