PHP数据采集常用的方法 做网站很多时候需要用到数据采集入库操作

技术文章
2024-04-04 16:02:28
文章摘要

是使用PHP程序,把其他网站中的信息抓取到我们自己的数据库中、网站中。

是使用PHP程序,把其他网站中的信息抓取到我们自己的数据库中、网站中。


PHP制作采集的技术:


从底层的socket到高层的文件操作函数,一共有3种方法可以实现采集。


1. 使用socket技术采集:


socket采集是最底层的,它只是建立了一个长连接,然后我们要自己构造http协议字符串去发送请求。


例如要想获取这个页面的内容,http://tv.youku.com/?spm=a2hww.20023042.topNav.5~1~3!2~A,用socket写如下:


//连接,¥error错误编号,¥errstr错误的字符串,30s是连接超时时间

¥fp=fsockopen("www.youku.com",80,¥errno,¥errstr,30);

if(!¥fp) die("连接失败".¥errstr);

//构造http协议字符串,因为socket编程是最底层的,它还没有使用http协议

¥http="GET /?spm=a2hww.20023042.topNav.5~1~3!2~A HTTP/1.1\r\n"; // \r\n表示前面的是一个命令

¥http.="Host:www.youku.com\r\n"; //请求的主机

¥http.="Connection:close\r\n\r\n"; // 连接关闭,最后一行要两个\r\n

//发送这个字符串到服务器

fwrite(¥fp,¥http,strlen(¥http));

//接收服务器返回的数据

¥data='';

while (!feof(¥fp)) {

¥data.=fread(¥fp,4096); //fread读取返回的数据,一次读取4096字节

}

//关闭连接

fclose(¥fp);

var_dump(¥data);

?>

打印出的结果如下,包含了返回的头信息及页面的源码:







2. 使用curl_一套函数


curl把HTTP协议都封装成了很多函数,直接传相应参数即可,降低了编写HTTP协议字符串的难度。


前提:在php.ini中要开启curl扩展。


2. 使用curl_一套函数


curl把HTTP协议都封装成了很多函数,直接传相应参数即可,降低了编写HTTP协议字符串的难度。


前提:在php.ini中要开启curl扩展。


[php] view plain copy


//生成一个curl对象


¥curl=curl_init();


//设置URL和相应的选项


curl_setopt(¥curl, CURLOPT_URL, "http://www.youku.com");


curl_setopt(¥curl, CURLOPT_RETURNTRANSFER, 1); //将curl_exec()获取的信息以字符串返回,而不是直接输出。


//执行curl操作


¥data=curl_exec(¥curl);


var_dump(¥data);


打印出的结果如下,只包含页面的源码:



3. 直接使用file_get_contents(最顶层的)


前提:在php.ini中设置允许打开一个网络的url地址。





[php] view plain copy


//使用file_get_contents()


¥data=file_get_contents("http://www.youku.com");


var_dump(¥data);







3种方式的选择


网络之间通信主要使用的是以上三种。其中后两种用的较多:如果要批量采集大量的数据时使用第二种【CURL】,性能好、稳定。


偶尔发几个请求发的频繁不密集时使用第三种。



扩展:图片的防盗链如何破?


比如7060网站上的图片做了防盗链:在他的网站中可以看到图片,把图片拿到站外就无法访问。






解决办法:发HTTP时自己模拟referer即可:





扩展:有些要采集数据时时必须先登录,可以使用模拟的试模拟在登录状态下的采集:


a. 先用浏览登录一下,登录完,浏览器的COOKIE中就会有SESSIONID


b. 发PHP发HTTP协议时,把浏览器中的SESSIONID放到PHP的HTTP协议请求里,这样就在以登录的状态发请求。


总结:所有客户端发过来的数据都可以被模拟,所以服务器上的程序必须要必要的地方过滤客户端的数据。




什么时候用以上东西?接口开发时、采集时。


二、数据采集


例如我要采集这个url里的所有美国电影的信息,


http://list.youku.com/category/show/c_96_a_%E7%BE%8E%E5%9B%BD_s_1_d_1_p_3.html


则先要知道电影所在的节点的结构,我们使用firebug查看。




然后开始写代码:完整代码如下



[php] view plain copy


/**


* 发一个GET请求获取数据


*/


function get(¥url)


{


global ¥curl;


// 配置curl中的http协议->可配置的荐可以查PHP手册中的curl_


curl_setopt(¥curl, CURLOPT_URL, ¥url);


curl_setopt(¥curl, CURLOPT_RETURNTRANSFER, TRUE);


curl_setopt(¥curl, CURLOPT_HEADER, FALSE);


// 执行这个请求


return curl_exec(¥curl);


}



// 生成一个curl对象


¥curl = curl_init();


¥url='http://list.youku.com/category/show/c_96_a_%E7%BE%8E%E5%9B%BD_s_1_d_1_p_3.html';


¥data=get(¥url);


// 匹配电影所在位置


¥list_preg = '/

  • .+<\/li>/Us';


    // 匹配img标签上的src和alt


    ¥img_preg = '/(.*)/U';


    //匹配电影的url


    ¥video_preg='/<\/a>/U';


    //把所有的li存到¥list里,¥list是个二维数组


    preg_match_all(¥list_preg,¥data,¥list);


    //var_dump(¥list);


    foreach (¥list[0] as ¥k => ¥v) { //这里¥v就是每一个li标签


    /* 获取图片及电影名称


    preg_match(¥img_preg,¥v,¥img); //把匹配到的图片的信息存到¥img里


    var_dump(¥img);


    */


    /*获取电影地址


    preg_match(¥video_preg,¥v,¥video); //把匹配到的电影的信息存到¥video里


    var_dump(¥video);


    */


    preg_match(¥img_preg,¥v,¥img);


    preg_match(¥video_preg,¥v,¥video);


    echo ¥img[0].''.¥video[2].'';


    }

    测试:

    打印¥list;

    打印¥img

    打印¥video

    最终效果

    如果需要把图片拷贝到硬盘上,则在foreach循环里加上以下代码:

    [php] view plain copy


    ¥imgData = get(¥img[1]);

    // 把图片文件写到硬盘上【下载】


    // 因为操作系统是GBK的,所以要把UTF8转成GBK


    is_dir('./youkuimg/') ? '': mkdir('./youkuimg/');

    file_put_contents('./youkuimg/'.mb_convert_encoding(¥img[3], 'gbk', 'utf-8').'.jpg', ¥imgData);


    效果如下:在当前目录下的youkuimg目录下就会有下载好的图片。

  • 扫码关注我们
    小程序二维码

    查看演示

    微信公众号二维码

    关注微信公众号

    你觉得这篇文章怎么样?

    本文标签: PHP数据采集

    关于小二CMS

    高端定制网站领域著名服务商

    我们立足合肥,业务覆盖安徽、全国及全球市场。我们凭借一支经验丰富、创意独特、协作无间的专业技术团队,专注于将最优技术通过高效简捷的途径呈现给客户,量身打造最佳解决方案。我们致力于通过持续努力,成为客户在信息化领域值得托付、共创价值的长期战略合作伙伴,协助客户在新经济时代敏锐捕捉商机,拓展发展空间,构筑强大竞争力。

    小程序开发
    公众号开发
    高端网站开发
    系统开发
    商城开发
    外贸网站建设
    网站优化推广
    安全运维

    扫描二维码与小二CMS创始人沟通

    7×24小时专业技术支持

    高端网站定制
    系统开发(OA、CRM)
    商城开发
    外贸网站建设
    公众号/小程序
    安全运维
    创始人微信二维码

    扫一扫添加微信

    关于我们

    超讯兴网络科技一家专注于高端网站建设、微信小程序开发、移动端应用研发及企业数字化转型服务的技术驱动型企业。我们致力于通过前沿技术研发实力与匠心独运的创意设计,为客户提供从策划、设计到开发、部署运维的一站式数字化解决方案。

    自2013年成立以来,我们已成功交付3000+个精品项目,服务客户遍布金融、零售、制造、教育、医疗、互联网等多个行业领域。我们拥有资深的技术团队与丰富的实战经验,擅长复杂业务逻辑梳理与建模、高性能系统架构设计、跨平台应用开发、用户体验(UX/UI)深度优化及企业级系统安全保障。

    我们相信,每一个成功的项目都源于对客户需求的深刻理解与极致追求。选择超讯兴网络科技,就是选择一个懂技术、懂设计、更懂您业务痛点的数字化成长伙伴,让我们携手将您的品牌愿景与市场机遇转化为可落地的数字现实,共同驱动业务增长与品牌价值升级。

    致力于通过数字化技术赋能企业,帮助客户实现业务增长与品牌升级,成为您值得信赖的技术合作伙伴。

    我们的优势
    01

    七年专注高端网站建设

    02

    服务上千企业积淀厚口碑

    03

    资深策划洞悉行业与用户

    04

    前沿技术栈紧跟时代发展

    05

    前端代码深度优化SEO友好

    06

    千家成功案例品质可信赖

    07

    精英团队高效协同创精品

    08

    多重防护保障数据安全

    09

    独家源码出售握牢自主权

    10

    完善售后体系全程护无忧

    11

    快速响应需求变更迭代

    12

    架构灵活支持二次开发

    13

    云服务器部署稳定可靠

    14

    免费提供一年技术支持

    15

    项目按期交付信誉保障

    16

    数据定期备份安全无忧

    我们的不同

    我们是一支年轻而充满激情的团队,痴迷代码,沉醉设计,坚信设计与编程不仅是工作,更是生活的信仰——"非设计,不生活;无兄弟,不编程!"

    团队成员来自国内外顶尖设计公司与软件企业,精通网站设计与开发,已成功交付数百个项目,涵盖品牌官网、电商平台、小程序及移动端应用。

    使命 以技术之力,助力改变命运
    宗旨 客户第一,品质至上
    信念 客户的成功,才是我们真正的成功

    产品演示

    产品演示二维码

    请使用微信扫描二维码

    查看产品演示

    QQ客服

    扫码添加好友,随时为您解答

    QQ二维码

    扫描二维码添加客服

    QQ号:460623785
    或保存二维码在QQ中识别

    微信客服

    扫码添加好友,随时为您解答

    微信二维码

    扫描二维码添加客服

    微信号:
    或保存二维码在微信中识别

    微信咨询
    QQ咨询
    电话咨询
    在线客服
    回到顶部