国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 開發 > PHP > 正文

PHP file_get_contents采集程序開發教程詳解

2024-05-04 21:58:09
字體:
來源:轉載
供稿:網友

file_get_contents() 遠程文件獲取函數,用來獲取遠程頁面內容 

preg_match_all()進行全局正則表達式匹配,匹配多次,用于匹配列表 

preg_match   ()進行正則表達式匹配,匹配一次,用于匹配終端 

preg_replace ()進行正則表達式替換,用于過濾終端

具體步驟

Step 1 獲取單頁列表 和 單篇文章內容

在批量采集列表和內容之前,我們先將網站的單頁列表和單篇文章的內容采集作為測試正則表達式對錯.

列表頁采集文章的鏈接地址,代碼如下:

  1. <?php 
  2.  //獲取列表 
  3.  $url = '/s2005/shishi.shtml'
  4.  $con=file_get_contents($url); 
  5.  //寫正則獲取列表中的文章鏈接 
  6.  /*范例 : <a test=a href='/20130418/n373177942.shtml' 
  7.           target='_blank'>湖南沅陵輸電工程沉船事故共致6人死亡</a>*/ 
  8.  $preg = "|<a test=a href='(.*)' target='_blank'>(.*)</a>|iUs"
  9.  // 正則中的/i表示 大小寫不敏感 /U 非貪婪匹配 /s 點號可以匹配換行符 
  10.  preg_match_all($preg,$con,$arr); 
  11.  //var_dump($arr); 
  12.     /* 
  13.     array(3) { 
  14.   [0]=> 
  15.   array(40) { 
  16.     [0]=> 
  17.     string(126) "<a test=a href='/20130418/n373180618.shtml' 
  18. target='_blank'>甘肅河西走廊遭大風沙塵侵襲 瞬時最大風力9級</a>" 
  19.     [1]=> 
  20.     string(112) "<a test=a href='/20130418/n373180612.shtml' 
  21. target='_blank'>一線城市住宅地價全部環比上漲</a>" 
  22.     ... ... 
  23.     [39]=> 
  24.     string(124) "<a test=a href='/20130418/n373161633.shtml' 
  25. target='_blank'>湖南衡陽發生一起槍擊案致1人死 警方正緝兇</a>" 
  26.   } 
  27.   [1]=> 
  28.   array(40) { 
  29.     [0]=> 
  30.     string(46) "/20130418/n373180618.shtml" 
  31.     [1]=> 
  32.     string(46) "/20130418/n373180612.shtml" 
  33.     ... ... 
  34.     [39]=> 
  35.     string(46) "/20130418/n373161633.shtml" 
  36.   } 
  37.   [2]=> 
  38.   array(40) { 
  39.     [0]=> 
  40.     string(42) "甘肅河西走廊遭大風沙塵侵襲 瞬時最大風力9級" 
  41.     [1]=> 
  42.     string(28) "一線城市住宅地價全部環比上漲" 
  43.     ... ... 
  44.     [39]=> 
  45.     string(40) "湖南衡陽發生一起槍擊案致1人死 警方正緝兇" 
  46.   } 
  47. } 
  48.     */ 
  49. ?> 

單篇文章的采集,代碼如下:

  1. <?php 
  2. $url = 'http://m.survivalescaperooms.com'
  3. $con = file_get_contents($url); 
  4. //正則表達式分為標題和內容 
  5. $title_preg = "|<h1>(.*)</h1>|iUs"
  6. $content_preg = "|<!-- 正文 -->(.*)<!-- 分享 -->|iUs"
  7. preg_match($title_preg,$con,$title_arr); 
  8. preg_match($content_preg,$con,$content_arr); 
  9. ?> 

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 江油市| 遂昌县| 石景山区| 合作市| 建水县| 娄底市| 清原| 夏邑县| 临高县| 中宁县| 固镇县| 高邮市| 德保县| 微博| 沙河市| 南江县| 伊川县| 景德镇市| 凌海市| 平塘县| 和林格尔县| 凉城县| 临泽县| 铁岭市| 蓬莱市| 北流市| 宣威市| 乃东县| 潮州市| 雷州市| 新丰县| 石狮市| 西华县| 方城县| 东乡县| 博白县| 来凤县| 当雄县| 麟游县| 玛多县| 黔南|