国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 學院 > 開發設計 > 正文

Java實現利用搜索引擎收集網址的程序

2019-11-18 15:38:00
字體:
來源:轉載
供稿:網友

  我這里講的不是怎么使用搜索引擎,而是怎么讓程序利用搜索引擎來搜集網址,這有什么用?很有用!網上動輒有人叫賣網址數據庫,如發布軟件網址、郵件地址、論壇網址、行業網址,這些網址是怎么來的呢?
不可能是人手工收集而來的,都是讓程序利用搜索引擎取到的,假如您需要某類網址信息數據,就跟我來一起研究一下,非常簡單。

  本文采用java語言寫成,以Google和百度搜索引擎為對象。

  我們要利用google、百度搜索引擎的搜索規則中的兩條,要害字搜索和inurl搜索。什么是inurl搜索,就是你所要搜索的網址中本身帶有的要害字,比如http://www.xxx.com/post.asp ,這個網址就含有post.asp這樣的要害字,在搜索引擎中填寫規則是 inurl:post.asp,這是收集網址的要害,因為很多網址本身會帶有特定的信息,比如軟件發布的網頁網址信息中多含有 publish、submit、tuijian這樣的信息,如http://www.xxx.com/publish.asp,這樣的網址多是發布信息的網頁,在結合網頁中本身可能含有的要害字,就可以用搜索引擎搜索出結果,然后我們利用程序將結果取回,對Html頁面進行分析,去除沒有用的信息,將有用的網址信息寫入文件或者數據庫,就可以給其它應用程序或者人來使用了。

  第一步,用程序將搜索結果取回,先以百度為例,比如我們要搜索軟件發布的網頁,要害字采用 “軟件發布 版本 inurl:publish.asp",先登錄百度看看,將要害字寫入,然后提交,在地址欄就會看到 http://www.baidu.com/s?ie=gb2312&bs=%C8%ED%BC%FE%B7%A2%B2%BC+%C8%ED%BC%FE%B0%E6%B1%BE+inurl%3Apublish.asp&sr=&z=&cl=3&f=8&wd=%C8%ED%BC%FE%B7%A2%B2%BC+%B0%E6%B1%BE+inurl%3Apublish.asp&ct=0 ,中文要害字全都變成編碼了,沒有關系,我們在程序中直接用中文也是可以的,其中多個要害字用+號相連,去掉一些沒有用的信息,我們可以把地址優化成http://www.baidu.com/s?lm=0&si=&rn=20&ie=gb2312&ct=0&wd=軟件發布+版本+inurl%3Apublish%2Easp&pn=0&cl=0,其中rn表示一頁顯示多少個結果,wd=表示你要搜索的要害字,pn表示從第幾條開始顯示,這個pn將是我們程序循環取結果的變量,每20條循環一次。我們用Java寫的程序來模擬這個搜索的過程,用到的要害類為 java.net.HttpURLConnection,java.net.URL,先寫一個提交搜索的class,要害代碼如下:

class Search
{
 public URL url;
 public HttpURLConnection http;
 public java.io.InputStream urlstream;
 ......
 for(int i=0;i++;i<100)
 {
  ......
  try {
   url = new URL("http://www.baidu.com/s?lm=0&si=&rn=20&ie=gb2312&ct=0&wd=軟件發布+版本+inurl%3Apublish%2Easp&pn="+beginrecord+"&cl=0");
  }catch(Exception ef){};
  try {
   http = (HttpURLConnection) url.openConnection();
   http.connect();
   urlstream = http.getInputStream();
  }catch(Exception ef){};

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 汽车| 兴业县| 仪征市| 晋中市| 盱眙县| 泽库县| 集安市| 胶南市| 黄石市| 东港市| 渝北区| 翁牛特旗| 霍州市| 柘荣县| 集安市| 达拉特旗| 芦山县| 兴海县| 腾冲县| 柳州市| 郓城县| 运城市| 千阳县| 鹤峰县| 丽江市| 怀仁县| 濮阳市| 门源| 上饶县| 乐山市| 保德县| 滨海县| 秦皇岛市| 孝感市| 抚远县| 佛坪县| 玉田县| 都匀市| 屯留县| 建湖县| 淳安县|