零基礎寫Java知乎爬蟲之準備工作

2019-11-26 15:21:55

字體：大中小

來源：轉載

供稿：網(wǎng)友

開篇我們還是和原來一樣，講一講做爬蟲的思路以及需要準備的知識吧，高手們請直接忽略。

首先我們來縷一縷思緒，想想到底要做什么，列個簡單的需求。

需求如下：

1.模擬訪問知乎官網(wǎng)（http://www.zhihu.com/）

2.下載指定的頁面內容，包括：今日最熱，本月最熱，編輯推薦

3.下載指定分類中的所有問答，比如：投資，編程，掛科

4.下載指定回答者的所有回答

5.最好有個一鍵點贊的變態(tài)功能（這樣我就可以一下子給雷倫的所有回答都點贊了我真是太機智了！）

那么需要解決的技術問題簡單羅列如下：

1.模擬瀏覽器訪問網(wǎng)頁

2.抓取關鍵數(shù)據(jù)并保存到本地

3.解決網(wǎng)頁瀏覽中的動態(tài)加載問題

4.使用樹狀結構海量抓取知乎的所有內容

好的，目前就想了這些。

接下來就是準備工作了。

1.確定爬蟲語言：由于以前寫過一系列爬蟲教程（點擊這里），百度貼吧，糗事百科，山東大學的績點查詢等都是用python寫的，所以這次決定使用Java來寫（喂完全沒有半毛錢聯(lián)系好嗎）。

2.科普爬蟲知識：網(wǎng)絡爬蟲，即Web Spider，是一個很形象的名字。把互聯(lián)網(wǎng)比喻成一個蜘蛛網(wǎng)，那么Spider就是在網(wǎng)上爬來爬去的蜘蛛。網(wǎng)絡蜘蛛通過網(wǎng)頁的鏈接地址來尋找網(wǎng)頁。具體的入門介紹請（點擊這里）。

3.準備爬蟲環(huán)境：Jdk和Eclipse的安裝和配置就不多說啦。這里

主站蜘蛛池模板：昌邑市| 图们市| 元谋县| 淮南市| 资阳市| 娄烦县| 潼南县| 通辽市| 古丈县| 贺州市| 台江县| 沛县| 宽城| 岑巩县| 左权县| 民丰县| 东山县| 南川市| 临沧市| 伊金霍洛旗| 十堰市| 隆子县| 南投市| 长治县| 呼和浩特市| 澜沧| 万山特区| 怀远县| 诸城市| 哈密市| 郯城县| 岱山县| 灵台县| 绥中县| 墨竹工卡县| 阳曲县| 阜阳市| 修水县| 镇赉县| 红桥区| 乌鲁木齐县|

国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

零基礎寫Java知乎爬蟲之準備工作