国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 開發(fā) > PHP > 正文

PHP實現(xiàn)采集抓取淘寶網(wǎng)單個商品信息

2024-05-04 23:29:59
字體:
供稿:網(wǎng)友
這篇文章主要介紹了PHP實現(xiàn)采集抓取淘寶網(wǎng)單個商品信息,本文是一種實現(xiàn)思路,使用file_get_contents函數(shù)實現(xiàn),并給出了采集正則,需要的朋友可以參考下
 

調(diào)用淘寶的數(shù)據(jù)可以使用淘寶提供的api,如果只需調(diào)用淘寶商品圖片名稱等公開信息在自己網(wǎng)站上,使用php中的 file_get_contents 函數(shù)實現(xiàn)即可。

思路:

file_get_contents(url) 該函數(shù)根據(jù) url 如 http://www.baidu.com 將該網(wǎng)頁內(nèi)容(源碼)以字符串形式輸出(一個整字符串),然后配合preg_match,preg_replace等這些正則表達(dá)式操作就可以實現(xiàn)獲取該url特定div,img等信息了。當(dāng)然前題是淘寶在單個商品頁面的結(jié)構(gòu)是固定的,如500圖的img中id就是J_ImgBooth!

具體實現(xiàn)方法:(獲取500圖,名稱,價格,屬性及商品描述)

復(fù)制代碼代碼如下:

$text=file_get_contents("http://item.taobao.com/item.htm?id=2380347279"); //將url地址上頁面內(nèi)容保存進(jìn)$text

 

A.獲取500圖:

復(fù)制代碼代碼如下:

preg_match('/<img[^>]*id="J_ImgBooth"[^r]*rc=/"([^"]*)/"[^>]*>/', $text, $img); 
//運用正則抓取img標(biāo)簽中id為J_ImgBooth的img,$img[0]為該500圖img標(biāo)簽,$img[1]為500圖的圖片地址;

 

B. 獲取名稱:

 

復(fù)制代碼代碼如下:

preg_match('/<title>([^<>]*)<//title>/', $text, $title); 
//因為正文中的商品名稱標(biāo)簽沒有特殊class或id正則不好抓取,就抓<title>標(biāo)簽中的內(nèi)容了,一般來說title中內(nèi)容就是商品名稱了(實際有些出入),$title[0]整個title標(biāo)簽 $title[1]標(biāo)簽中內(nèi)容;
$title=iconv('GBK','UTF-8',$title);
//如果你的網(wǎng)站是utf8編碼,那么需要進(jìn)行一下轉(zhuǎn)碼(淘寶是gbk編碼)

 

C.獲取價格:

 

復(fù)制代碼代碼如下:

preg_match('/<([a-z]+)[^i]*id=/"J_StrPrice/"[^>]*>([^<]*)<////1>/is', $text, $price);
//同理獲取id為J_StrPrice的標(biāo)簽內(nèi)容$price[2], $price[0]是整個標(biāo)簽, $price[1]為strong標(biāo)簽名;
$price=floatval($price);//放入數(shù)據(jù)庫估計還有轉(zhuǎn)一下變量類型

 

D.獲取屬性:

這之前獲取的內(nèi)容都是在單標(biāo)簽中相對只需一個正則就可搞定,然而如果要獲取如

 

復(fù)制代碼代碼如下:


 
<div id=”xxx”>
 

 
<ul>
 

 
</ul>
 
<div>…
 
<div>…
 
</div>
 
</div>
 
</div>
 

 

這樣特定div中有未知n個<>標(biāo)簽,獲取該特定div將會非常的困難,搜了下網(wǎng)上,最接近的也只是”/<([a-z]+)[^>]*>([^<>]|(?R))*<////1>/”這樣使用遞歸抓取標(biāo)簽對,但是他不能抓特定標(biāo)簽,所以想要輕松抓取class=”attributes”的div我是沒法辦到了。但是淘寶網(wǎng)頁有其特殊性,就是它的各個標(biāo)簽結(jié)構(gòu)基本是固定的…<div>…</div>標(biāo)簽后面不是</div><div id=”description”>就是</div><div>,所以我們可以采用變通法達(dá)到獲取屬性標(biāo)簽內(nèi)容的目的。

 

復(fù)制代碼代碼如下:

preg_match('/<(div)[^c]*class=/"attributes/"[^>]*>.*<////1>/is', $text, $text0);
//這個正則會抓取<div開始到整個頁面最后一個</div>標(biāo)簽,當(dāng)然我們屬性標(biāo)簽就在這個的前面部分。
 
$text1=preg_replace("/<//div>[^<]*<(div)[^c]*id=/"description/"[^>]*>.*<////1>/is","",$text0);
//匹配到</div ><div id=”description”>至最后</div>然后用””代替(就是把匹配的刪除了),所以如果attributes的div后面緊跟的是description那么我們已經(jīng)達(dá)到目的了。
 
$attributes=preg_replace("/<//div>[^<]*<(div)[^c]*class=/"box J_TBox/"[^>]*>.*<////1>/is","",$text1);
//如果attributes后面緊跟box J_Tbox標(biāo)簽,那么我們還需要使用以上這步來剔除box J_Tbox標(biāo)簽,當(dāng)然如果attributes的div后面緊跟的是description,這一步將不會匹配到任何即什么都不會做。

 

E.獲取描述:

通過上面方法你肯定覺得淘寶頁面上任何標(biāo)簽都可以很簡單獲取了吧(我之前也是這么想的),但是使用這個方法獲取描述時得到的內(nèi)容將會是“描述加載中”,是的,這個描述內(nèi)容不是在源碼中的,它是打開頁面加載進(jìn)一大堆js后,不知道從淘寶的哪個角落中加載進(jìn)來的。

好吧,那么我們也可以模仿它放一些js進(jìn)去。不知道哪些對加載描述有用?沒事,全加載進(jìn)來肯定沒錯。不知道需要放那些特定div上去有作用?抓一個源碼,刪掉一些div一步步試試看,你會發(fā)現(xiàn)“<div id=”detail”> </div>

 

復(fù)制代碼代碼如下:

<div id="description">
 
<div id="J_DivItemDesc">描述加載中</div>
 
</div>

 

這幾個div是加載描述所必須的,那么下面就是寫代碼了:

 

復(fù)制代碼代碼如下:

preg_match_all('/<script[^>]*>[^<]*<//script>/is', $text, $content);//頁面js腳本
 $content=$content[0];
 $description='<div id="detail"> </div>
  <div id="description">
   <div id="J_DivItemDesc">描述加載中</div>
  </div>';
foreach ($content as &$v){$description.=iconv('GBK','UTF-8',$v);};
//將這個$description放進(jìn)頁面,描述就會自動的加載進(jìn)來了,當(dāng)然多個商品描述在同一個頁面也會只有一個描述會被加載的。
 

發(fā)表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發(fā)表
主站蜘蛛池模板: 屯门区| 衡阳市| 遵义县| 东阳市| 象州县| 阿瓦提县| 霍州市| 兴宁市| 盘山县| 阿瓦提县| 资中县| 突泉县| 泾川县| 定兴县| 株洲县| 泸西县| 五大连池市| 蚌埠市| 会同县| 乌恰县| 葫芦岛市| 广州市| 武山县| 甘孜县| 郑州市| 福州市| 玉溪市| 惠东县| 启东市| 邢台县| 鹤峰县| 锡林浩特市| 岢岚县| 济源市| 镇原县| 南华县| 随州市| 连州市| 宝兴县| 江陵县| 永安市|