HttpClient抓取網頁的兩種方式

2020-10-28 20:09:38

字體：大中小

來源：轉載

供稿：網友

一、利用NodeFilter對網頁進行分析

1、生成一個Parser
a.通過url提取網絡上的網頁

復制代碼代碼如下:

 
Parser parser = new Parser(); 
parser.setURL("http://www.yahoo.com.cn"); 

b.提取本地網頁文件
通過讀文件把網頁文件轉化成字符串；

復制代碼代碼如下:

Parser parser=Parser.createParser(html,charset);

2、利用NodeFilter做一個filter
a.利用Tag Name
NodeFilter filter=new TagNameFilter("IMG");
b.利用Tag Class
NodeFilter filter = new NodeClassFilter(ImageTag.class);

3、通過匹配filter，得到所有符合條件的Tag
NodeList list=parser.extractAllNodesThat(filter);
for(int i=0;i String content=list.elementAt(i).toHtml();//得到符合條件的Tag 內容
如果針對具體情況進行更加詳細的處理，則：

復制代碼代碼如下:

 
ImageTag imageTag=(ImageTag)list.elementAt(i); 
………… 
} 

然后根據需要做相應的處理。

二、利用Visitor對網頁進行分析
1、生成一個Parser
a.通過url提取網絡上的網頁

復制代碼代碼如下:

 
Parser parser = new Parser(); 
parser.setURL("http://www.yahoo.com.cn"); 

b.提取本地網頁文件
通過讀文件把網頁文件轉化成字符串；

復制代碼代碼如下:

Parser parser=Parser.createParser(html,charset);

2、用visitor訪問頁面

復制代碼代碼如下:

 
ex：ObjectFindingVisitor visitor=new ObjectFindingVisitor(); 
parser.visitAllNodesWith(visitor); 

3、通過特定的visitor得到符合條件的Tag

復制代碼代碼如下:

 
Node[] nodes=visitor.getTags(); 
for(int i=0;i ImageTag imageTag=(ImageTag)nodes[i]; 
………… 
//根據需要做特定處理 
} 

上一篇：EditPlus 3設置字體大小(附圖)

下一篇：URL中井號的作用介紹

學習交流

硬盤分區之整數G計算公式附在線計算工具

硬盤分區之整數G計算公式附在線計算工具原創...

熱門圖片

猜你喜歡的新聞

猜你喜歡的關注

国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

HttpClient抓取網頁的兩種方式