php抓取https的內(nèi)容的代碼
大家有時候需要獲取https網(wǎng)頁的內(nèi)容,下面得方法,可以參考下。就跟隨百分網(wǎng)小編一起去了解下吧,想了解更多相關信息請持續(xù)關注我們應屆畢業(yè)生考試網(wǎng)!
直接用file_get_contents,會報錯;
復制代碼 代碼如下:
$url = (/pic/p>
file_get_contents($url);
錯誤:
Warning: file_get_contents(/pic/p>
用curl的方式是可以的:
復制代碼 代碼如下:
$url = (/pic/p>
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL,$url);
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false);
curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, false);
$result = curl_exec($ch);
print_r($result);
?>
重點是以下兩句:
復制代碼 代碼如下:
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false);
curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, false);
如對本文有疑問,請?zhí)峤坏浇涣魃鐓^(qū),廣大熱心網(wǎng)友會為你解答! 點擊進入社區(qū)
為方便說明,先上代碼吧
復制代碼 代碼如下:
/**
* curl POST
*
* @param string url
* @param array 數(shù)據(jù)
* @param int 請求超時時間
* @param bool HTTPS時是否進行嚴格認證
* @return string
*/
function curlPost($url, $data = array(), $timeout = 30, $CA = true){
$cacert = getcwd() . '/cacert.pem'; /pic/p>
$SSL = substr($url, 0, 8) == "/pic/p>
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_TIMEOUT, $timeout);
curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout-2);
if ($SSL && $CA) {
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, true); /pic/p>
curl_setopt($ch, CURLOPT_CAINFO, $cacert); /pic/p>
curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, 2); /pic/p>
} else if ($SSL && !$CA) {
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false); /pic/p>
curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, 1); /pic/p>
}
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
curl_setopt($ch, CURLOPT_HTTPHEADER, array('Expect:')); /pic/p>
curl_setopt($ch, CURLOPT_POST, true);
curl_setopt($ch, CURLOPT_POSTFIELDS, $data);
/pic/pic/p>
$ret = curl_exec($ch);
/pic/pic/p>
curl_close($ch);
return $ret;
}
如果URL地址是https打頭,那就走SSL,否則就走普通的HTTP協(xié)議。
是否走HTTPS的話就安全了嗎?其實SSL也有不同的驗證程度。
例如需不需要驗證證書中的公用名呢?(BTW:公用名(Common Name)一般來講就是填寫你將要申請SSL證書的域名 (domain)或子域名(sub domain)。)
需要驗證主機名嗎?
是任何證書都信任呢還是只信任CA頒布的呢?
。ㄎ也拎希姵乜鞗]點了,只撿關鍵地兒說了 - -|||)
如果網(wǎng)站SSL證書買的是CA的(通常比較貴),那么訪問時可以使用比較嚴格的認證,即:
復制代碼 代碼如下:
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, true); /pic/p>
curl_setopt($ch, CURLOPT_CAINFO, $cacert); /pic/p>
curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, 2); /pic/p>
如果網(wǎng)站的證書是自己生成的,或者是網(wǎng)上的小機構(gòu)申請的,那么訪問時如果使用嚴格認證則不會通過,直接返回false。(對了,返回false時可以打印curl_error($ch)查看具體錯誤信息。)此時可以根據(jù)情況通過降低驗證程度來保證正常訪問,例如:
復制代碼 代碼如下:
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false); /pic/p>
curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, 1); /pic/p>
平時我們使用瀏覽器訪問各個https網(wǎng)站時,有時會遇到證書不受信的提示,其實就是因為這些網(wǎng)站的證書不是正規(guī)CA機構(gòu)頒布的。
市面上各種瀏覽器中都內(nèi)置了CA根證書列表信息,訪問有CA頒布證書的網(wǎng)站時,會根據(jù)根證書驗證這些網(wǎng)站的證書,所以就不會有這個提示了。
關于CA根證書文件,其實就是包含了各個主要CA機構(gòu)的公鑰證書,用來驗證網(wǎng)站的證書是否是這些機構(gòu)頒發(fā)的。
這里的這個文件是來源于mozilla的源碼樹,又轉(zhuǎn)換成PEM格式證書文件。(大家可以到這里下載現(xiàn)成的/pic/ca/cacert.pem)
最后說一個和SSL無關的東西:
復制代碼 代碼如下:
curl_setopt($ch, CURLOPT_HTTPHEADER, array('Expect:'));
這個主要是為了解決POST時數(shù)據(jù)過長問題
【php抓取https的內(nèi)容的代碼】相關文章:
PHP實現(xiàn)抓取HTTPS內(nèi)容02-11
php抓取頁面的方法03-10
php抓取頁面的的方法06-19
php分頁類代碼08-05
PHP代碼運行流程07-15
PHP代碼優(yōu)化技巧10-01
PHP代碼如何規(guī)范02-13
php語言字典代碼02-15
PHP調(diào)用的C代碼08-27
- 相關推薦