国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 學院 > 軟件教程 > 正文

火車頭采集器怎么采集文章?

2020-07-18 15:51:11
字體:
供稿:網(wǎng)友

有時候我們看到一個網(wǎng)站的文章,想要把這些文章保存下來,一篇一篇的復制保存很麻煩,這個時候就需要用到火車頭采集器把文章采集下來保存了。下面介紹一下如何用火車頭采集器采集文章。

第一步采集網(wǎng)址,下載好火車頭采集器后打開,新建一個任務,任務名隨意。把需要采集的網(wǎng)站文章列表頁網(wǎng)址添加到起始網(wǎng)址。從圖中看出該列表頁有34頁,每頁有N篇文章。

列表頁會一級網(wǎng)址,添加多級網(wǎng)址獲取,從而獲取二級網(wǎng)址(文章頁網(wǎng)址)

設置列表分頁獲取,3個地方分別是:分頁源代碼前面和后面還有中間位置。這一步用于獲取列表頁面鏈接,因為有34個列表頁面。設置完保存。

網(wǎng)址獲取選項,這一步用于獲取列表頁上面文章頁的鏈接,根據(jù)自己需要設置需要截取的部分和根據(jù)網(wǎng)址的結(jié)構(gòu)設置包含與不包含某些字符。為空即沒限制,設置完保存。

設置好鏈接采集規(guī)則后,可以測試網(wǎng)址,看測試結(jié)果調(diào)整規(guī)則。看圖可以看到采集鏈接規(guī)則從起始鏈接到全面列表頁再到列表頁上的文章頁鏈接都已經(jīng)成功采集。

第二步是采集內(nèi)容,首先修改標題規(guī)則,在頁面源代碼里面找到標題的代碼,把標題前后代碼負責過去截取出標題。保存。

修改內(nèi)容采集規(guī)則,跟標題規(guī)則差不多,也是源代碼里面找到內(nèi)容的前后代碼。這里內(nèi)容會有一些其他html標簽,所以得添加一個html標簽排除的規(guī)則。

完成后,測試看一下結(jié)果,從測試結(jié)果來調(diào)試規(guī)則,直到測試結(jié)果是自己想要的內(nèi)容為止。

第三步是采集導出。前面1、2兩步把規(guī)則設置好,最后就要把文章導出了。先做一個導出的模版。

然后選擇方式二,把每一篇文章都分別記錄到一個txt文本,保存位置自己選擇,模板選擇剛剛做好的導出模版.保存的文件名用文章標題為命名。其他默認,保存。

把采集網(wǎng)址,采集內(nèi)容,發(fā)布3個選項框都勾選,然后開始采集。完成后文本就自動生成在剛剛保存的文件夾里面了。

火車頭采集器采集文章教程到此就完成了,由于每個網(wǎng)站都是不一樣的,所以這里只能用一個網(wǎng)站演示,只是一個方法思路,自己采集文章還需要靈活變通。

發(fā)表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發(fā)表
主站蜘蛛池模板: 泗阳县| 咸阳市| 襄垣县| 通州区| 法库县| 陕西省| 柘城县| 大英县| 肇东市| 滁州市| 宝丰县| 庆城县| 舟曲县| 贺州市| 抚州市| 涿州市| 尖扎县| 东至县| 凌云县| 神池县| 琼海市| 昭通市| 阿拉善右旗| 渝中区| 察哈| 浦江县| 渝北区| 札达县| 高雄市| 北京市| 岑巩县| 个旧市| 苍山县| 五大连池市| 大连市| 航空| 七台河市| 宾阳县| 名山县| 淅川县| 广丰县|