国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本
首頁
|
新聞
|
娛樂
|
游戲
|
科普
|
文學(xué)
|
編程
|
系統(tǒng)
|
數(shù)據(jù)庫
|
建站
|
學(xué)院
|
產(chǎn)品
|
網(wǎng)管
|
維修
|
辦公
|
熱點
首頁
>
開發(fā)
>
PHP
> 正文
深入php數(shù)據(jù)采集的詳解
2024-05-04 21:53:46
字體:
大
中
小
來源:
轉(zhuǎn)載
供稿:網(wǎng)友
這里介紹兩個
php
采集能用到的好工具。一個是Snoopy,一個是simple_html_dom。采集還有很多方式(其實本質(zhì)就2-3種,其他的都是衍生的),php自帶了幾個方法也能直接進(jìn)行采集。但是,出于把懶惰進(jìn)行到底的精神。我們還是可以通過這兩個工具,讓采集變得更簡單。
網(wǎng)上有不少介紹Snoopy的,下面是別人翻譯的Snoopy的SDK
//////////////////////////////////////////////////////////////
Snoopy是一個php類,用來模擬瀏覽器的功能,可以獲取網(wǎng)頁內(nèi)容,發(fā)送表單。
Snoopy的一些特點:
1抓取網(wǎng)頁的內(nèi)容 fetch
2抓取網(wǎng)頁的文本內(nèi)容 (去除HTML標(biāo)簽) fetchtext
3抓取網(wǎng)頁的鏈接,表單 fetchlinks fetchform
4支持代理主機(jī)
5支持基本的用戶名/密碼驗證
6支持設(shè)置 user_agent, referer(來路), cookies 和 header content(頭文件)
7支持瀏覽器重定向,并能控制重定向深度
8能把網(wǎng)頁中的鏈接擴(kuò)展成高質(zhì)量的url(默認(rèn))
9提交數(shù)據(jù)并且獲取返回值
10支持跟蹤HTML框架
11支持重定向的時候傳遞cookies
要求php4以上就可以了 由于本身是php一個類 無需擴(kuò)支持 服務(wù)器不支持curl時候的最好選擇,
類方法:
fetch($URI)
――― 主站蜘蛛池模板:
宁都县
|
嵩明县
|
安龙县
|
军事
|
滨州市
|
临朐县
|
梁平县
|
青神县
|
津南区
|
边坝县
|
乌鲁木齐市
|
日土县
|
偏关县
|
达尔
|
佛学
|
阜新
|
南澳县
|
柘荣县
|
溧阳市
|
陵水
|
陇南市
|
安义县
|
武胜县
|
曲阳县
|
徐闻县
|
沿河
|
华亭县
|
襄垣县
|
汉源县
|
云浮市
|
闸北区
|
肃宁县
|
顺平县
|
韩城市
|
健康
|
确山县
|
孟连
|
富民县
|
高州市
|
乐陵市
|
奇台县
|