三级大片网站,国产精品欧美视频另类专区 ,国产成人啪午夜精品网站

這是一個系列沒辦法在一兩天寫完所以一篇一篇的發布

大致大綱：

1.curl數據采集系列之單頁面采集函數get_html

2.curl數據采集系列之多頁面并行采集函數get_htmls

3.curl數據采集系列之正則處理函數get _matches

4.curl數據采集系列之代碼分離

5.curl數據采集系列之并行邏輯控制函數web_spider

單頁面采集在數據采集過程中是最常用的一個功能有時在服務器訪問限制的情況下只能使用這種采集方式慢但是可以簡單的控制所以寫好一個常用的curl函數調用是很重要的

百度和網易比較熟悉所以拿這兩個網站首頁采集來做例子講解

最簡單的寫法：

復制代碼代碼如下:

	
	$url = 'http://www.baidu.com';

	 $ch = curl_init($url);

	 curl_setopt($ch,CURLOPT_RETURNTRANSFER,true);

	 curl_setopt($ch,CURLOPT_TIMEOUT,5);

	 $html = curl_exec($ch);

	 if($html !== false){

	     echo $html;

	 }

由于使用頻繁可以利用curl_setopt_array寫成函數的形式：

復制代碼代碼如下:

	
	function get_html($url,$options = array()){

	     $options[CURLOPT_RETURNTRANSFER] = true;

	     $options[CURLOPT_TIMEOUT] = 5;

	     $ch = curl_init($url);

	     curl_setopt_array($ch,$options);

	     $html = curl_exec($ch);

	     curl_close($ch);

	     if($html === false){

	         return false;

	     }

	     return $html;

	 }

復制代碼代碼如下:

	
	$url = 'http://www.baidu.com';

	echo get_html($url);

有時候需要傳遞一些特定的參數才能得到正確的頁面如現在要得到網易的頁面：

復制代碼代碼如下:

	
	$url = 'http://www.163.com';

	echo get_html($url);

會看到一片空白什么也沒有那么再利用curl_getinfo寫一個函數看看發生了什么：

復制代碼代碼如下:

	
	function get_info($url,$options = array()){

	     $options[CURLOPT_RETURNTRANSFER] = true;

	     $options[CURLOPT_TIMEOUT] = 5;

	     $ch = curl_init($url);

	     curl_setopt_array($ch,$options);

	     $html = curl_exec($ch);

	     $info = curl_getinfo($ch);

	     curl_close($ch);

	     return $info;

	 }

	 $url = 'http://www.163.com';

	 var_dump(get_info($url));

基于curl數據采集之單頁面采集函數get_html的使用

可以看到http_code 302 重定向了這時候就需要傳遞一些參數了：

復制代碼代碼如下:

	
	$url = 'http://www.163.com';

	$options[CURLOPT_FOLLOWLOCATION] = true;

	echo get_html($url,$options);

基于curl數據采集之單頁面采集函數get_html的使用

會發現怎么是這樣的一個頁面和我們電腦訪問的不同？？？

看來參數還是不夠不夠服務器判斷我們的客戶端是什么設備上的就返回了個普通版

看來還要傳送USERAGENT

復制代碼代碼如下:

	
	$url = 'http://www.163.com';

	 $options[CURLOPT_FOLLOWLOCATION] = true;

	 $options[CURLOPT_USERAGENT] = 'Mozilla/5.0 (Windows NT 6.1; rv:19.0) Gecko/20100101 Firefox/19.0';

	 echo get_html($url,$options);

基于curl數據采集之單頁面采集函數get_html的使用

OK現在頁面已經出來了這樣基本這個get_html函數基本能實現這樣擴展的功能

當然也有另外的辦法可以實現，當你明確的知道網易的網頁的時候就可以簡單采集了：

復制代碼代碼如下:

	
	 $url = 'http://www.163.com/index.html';

	 echo get_html($url);

這樣也可以正常的采集

一区二区三区在线-一区二区三区亚洲视频-一区二区三区亚洲-一区二区三区午夜-一区二区三区四区在线视频-一区二区三区四区在线免费观看

基于curl數據采集之單頁面采集函數get_html的使用

延伸 · 閱讀

php 數組元素快速去重

Laravel框架使用Redis的方法詳解

PHP中使用匿名函數操作數據庫的例子

PHP基于php_imagick_st-Q8.dll實現JPG合成GIF圖片的方法

eclipse php wamp配置教程

PHP設計模式之迭代器模式Iterator實例分析【對象行為型】

PHP之使用swoole統計在線人數和ID案例講解

PHP里8個鮮為人知的安全函數分析

云服務器是什么，云主機干什么用的？

2020最新好用的web服務器軟件推薦

服務器操作系統有哪些?

web服務器配置（圖文詳解）

企業如何選擇阿里云服務器配置?

五大免費主機管理系統優缺點對比及推薦

2019最新三款Windows下連接Linux的ssh軟件下載推薦

服務器常用管理軟件盤點

Nginx服務器究竟是怎么執行PHP項目