如果你直接使用PHP CURL函數來抓取http內容可能沒有任何問題了,但是如果你要正抓取的是https文件才會發現本文章幫你解決了一個大難題了,下面我們來看看具體操作過程.
三年前寫過一篇《一個簡陋的支持HTTPS的PHP CURL封裝函數》,當時只是知其然不知其所以然,今天來詳細梳理一下.
https服務器post數據,代碼如下:
- function curlPost($url, $data, $timeout = 30)
- {
- $ssl = substr($url, 0, 8) == "https://" ? TRUE : FALSE;
- $ch = curl_init();
- $opt = array(
- CURLOPT_URL => $url,
- CURLOPT_POST => 1,
- CURLOPT_HEADER => 0,
- CURLOPT_POSTFIELDS => (array)$data,
- CURLOPT_RETURNTRANSFER => 1,
- CURLOPT_TIMEOUT => $timeout,
- );
- if ($ssl)
- {
- $opt[CURLOPT_SSL_VERIFYHOST] = 1;
- $opt[CURLOPT_SSL_VERIFYPEER] = FALSE;
- }
- curl_setopt_array($ch, $opt);
- $data = curl_exec($ch);
- curl_close($ch);
- return $data;
- }
- $data = curlPost('http://m.survivalescaperooms.com', array('p'=>'hello'));
- echo ($data);
其實這是告訴服務器不進行SSL認證,并不是真的走HTTPS,如果要真正使用HTTPS,那么需要提供CA證書.
上面關于SSL部分按照如下設置:
01.CURLOPT_SSL_VERIFYPEER 設置為 true,說明進行SSL證書認證
02.CURLOPT_SSL_VERIFYHOST 設置為 2,說明進行嚴格認證
03.CURLOPT_CAINFO 設置為證書的路徑
為方便說明,先上代碼吧~ 這是今天重新封裝的一個函數,代碼如下:
- /**
- * curl POST
- *
- * @param string url
- * @param array 數據
- * @param int 請求超時時間
- * @param bool HTTPS時是否進行嚴格認證
- * @return string
- */
- function curlPost($url, $data = array(), $timeout = 30, $CA = true){
- $cacert = getcwd() . '/cacert.pem'; //CA根證書
- $SSL = substr($url, 0, 8) == "https://" ? true : false;
- $ch = curl_init();
- curl_setopt($ch, CURLOPT_URL, $url);
- curl_setopt($ch, CURLOPT_TIMEOUT, $timeout);
- curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout-2);
- if ($SSL && $CA) {
- curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, true); // 只信任CA頒布的證書
- curl_setopt($ch, CURLOPT_CAINFO, $cacert); // CA根證書(用來驗證的網站證書是否是CA頒布)
- curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, 2); // 檢查證書中是否設置域名,并且是否與提供的主機名匹配
- } else if ($SSL && !$CA) {
- curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false); // 信任任何證書
- curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, 1); // 檢查證書中是否設置域名
- }
- curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
- curl_setopt($ch, CURLOPT_HTTPHEADER, array('Expect:')); //避免data數據過長問題
- curl_setopt($ch, CURLOPT_POST, true);
- curl_setopt($ch, CURLOPT_POSTFIELDS, $data);
- //curl_setopt($ch, CURLOPT_POSTFIELDS, http_build_query($data)); //data with URLEncode //開源代碼Vevb.com
- $ret = curl_exec($ch);
- //var_dump(curl_error($ch)); //查看報錯信息
- curl_close($ch);
- return $ret;
- }
如果URL地址是https打頭,那就走SSL,否則就走普通的HTTP協議,是否走HTTPS的話就安全了嗎?其實SSL也有不同的驗證程度.
例如需不需要驗證證書中的公用名呢?(BTW:公用名(Common Name)一般來講就是填寫你將要申請SSL證書的域名(domain)或子域名(sub domain).)
需要驗證主機名嗎?
是任何證書都信任呢還是只信任CA頒布的呢?如果網站SSL證書買的是CA的,通常比較貴,那么訪問時可以使用比較嚴格的認證,即代碼如下:
- curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, true); // 只信任CA頒布的證書
- curl_setopt($ch, CURLOPT_CAINFO, $cacert); // CA根證書(用來驗證的網站證書是否是CA頒布)
- curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, 2); // 檢查證書中是否設置域名,并且是否與提供的主機名匹配
如果網站的證書是自己生成的,或者是網上的小機構申請的,那么訪問時如果使用嚴格認證則不會通過,直接返回false,對了,返回false時可以打印curl_error($ch)查看具體錯誤信息,此時可以根據情況通過降低驗證程度來保證正常訪問,代碼如下:
curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, 1);
檢查證書中是否設置域名,為0也可以,就是連域名存在與否都不驗證了,平時我們使用瀏覽器訪問各個https網站時,有時會遇到證書不受信的提示,其實就是因為這些網站的證書不是正規CA機構頒布的.
市面上各種瀏覽器中都內置了CA根證書列表信息,訪問有CA頒布證書的網站時,會根據根證書驗證這些網站的證書,所以就不會有這個提示了.
關于CA根證書文件,其實就是包含了各個主要CA機構的公鑰證書,用來驗證網站的證書是否是這些機構頒發的.
新聞熱點
疑難解答