网站优化应对蜘蛛页面抓取异常

运营推广
2018-07-18 08:15:02
文章摘要

收录是指网页被搜索引擎抓取到,然后放到搜索引擎的库里,等到人们搜索相关词汇的时候,可以在搜索结果页展示列表看到已经收录的页面及页面信息。

收录是指网页被搜索引擎抓取到,然后放到搜索引擎的库里,等到人们搜索相关词汇的时候,可以在搜索结果页展示列表看到已经收录的页面及页面信息。我们所说的“网页被收录”即能在搜索结果页看到相关的页面。反之,“网页没有被收录”问题就复杂一些,因为在搜索结果页没有看到对应的页面,并不意味着网页就没在搜索引擎的库里,或者说就没有被收录,有可能是网页针对当前的搜索词汇排名不好,在760个记录之外,因此没有得到展示。


收录涉及网页被搜索引擎蜘蛛抓取,然后被编入搜索引擎的索引库,并在前端被用户搜索到这一系列的过程。对SEO人员或者希望对自己网站进行优化的非专业SEO人员来说,了解页面是如何被搜索引擎收录的,了解搜索引擎的收录原理,都是极有好处的,能帮助你在进行网站SEO的时候尽量遵循收录的规律,提高网站被收录的比例。


搜索引擎在抓取网页的时候,可能会遇到各种情况,有的页面抓取成功,有的抓取失败。怎么显示一个页面的实际抓取结果呢?主要是通过返回码进行示意,代表抓取成功与否和遇到的问题。比如我们常见的,有时候打开一个页面,页面一片空白,上面只显示404。这里的404就是一种返回码,代表当前抓取的页面已经失效,遇到显示404的页面,如果短期内搜索,蜘蛛再发现这个URL,也不会对其进行抓取。


有时候,会返回503,503返回码代表网站临时无法访问,可能是网站服务器关闭或者其他临时措施造成的网页无法访问,一般来说,蜘蛛还会继续抓取几次。如果网站恢复正常,URL仍然被当作正常URI。处理,如果服务器一直处于不可访问状态,那么搜索引擎就会将这些URL彻底从库中删除,这就要求我们必须维护网站的稳定性,尽量避免临时关闭的情况发生。返回码403是禁止访问状态,一般来说,如同503一样,如被多次访问仍处于禁止访问状态,就会被搜索引擎从库里面删除。


在返回码中,有一类需要格外注意,就是301。301代表永久性移除,当前URL被永久性重定向到另外的uRL。一般来说,因为改版等原因,部分URL需要永久被替换为新URL,就必须使用返回码301进行处理,这样能把权重等一并带过去,避免网站的流量损失。


返回码301的优化写法如下。


(1)创建一个htaccess.txt文件。


(2)在htaccess.txt里写好返回码30l的跳转信息。


假设旧的URL为abc.com,需要重定向到www.abc.com,需在文件里写如下信息。


RewriteEngineon


RewriteCond%{http_host}abc.com[NC]


RewriteRule^(.*)$http://www.abc.com/$1[L,R=301]


(3)将htaccess.txt上传到FTP,然后将htaccess.txt修改为.htaccess。


需要提醒的是目前htaccess只适用于Linux系统,并需要虚拟主机支持,因此,在考虑htaccess文件处理返回码301的时候,需要查看虚拟主机是否完全支持。


实际上,在重定向的处理上存在多种方式,简单来说,重定向可以分为http30x重定向、metarefresh重定向和js重定向。另外,大的搜索引擎公司,比如谷歌和百度都确认支持Canonical标签,可以通过制定一个权威页面的方式,引导蜘蛛只索引一个权威页面,从实际效果上来说,也是一种间接的重定向。在实际抓取过程中,蜘蛛会对各种重定向效果进行识别。


重定向的方法有多种,但是从SEO角度来说,如果是永久跳转的页面,尽量在采用返回码301的跳转方式。另外,从


时间结果来看,百度对Canonical的支持并不如谷歌好,采用Canonical未必能得到如期效果。有些网站通过不同的路径进入同


一页面,可能会出现多个URL的情况,当面对这种情况时,可能需要一些处理技巧,关于Canonical的使用技术可参见本书关于Canonical的专门讲解。


外链等因素对搜索的排名是有影响的,那么在抓取环节是否也有影响呢?百度在它的抓取政策上有优先级的说明,即执行包括“深度优先遍历策略、宽度优先遍历策略、PR优先策略、反链策略、社会化分享指导策略等”。同时,这也说明每个策略各有优劣,在实际情况中往往是多种策略结合使用才能达到最优的抓取效果。从这段官方说明里面可以看到PR优先策略、反链策略、社会化分享等字眼,我们可以认为,百度在实际抓取的时候,其实都考虑了这些因素,只是权重可能有所不同,因此,尽量提高网页PR,增加更高质量的外链,进行高质量的社会化分享,对网站的SEO工作是有积极意义的。


另外,针对互联网存在的大量“盗版”“采集”的网页情况,在抓取的过程中,蜘蛛会通过技术判断页面是否已经被抓取过,并对URI.不同但是实际内容相同的页面的URL进行归一化处理,即视作一个URL,。也就是告诉SEO人员,不要通过大量创建页面的方式来获得更多的搜索资源,如果页面很多,但是每个页面的内容重复性很高,或者仅是uRL中包含无效参数来实现多个页面,搜索引擎仍然把这些URI。当作一个uRL处理,即网站页面不是越多越好,通过功利的方式拼凑网页,大量部署长尾,但是页面质量堪忧,效果会适得其反。如果大量此类页面被搜索引擎判断为低质量页面,可能会影响到整站的SEO效果。


蜘蛛在抓取的过程实际是依据链接不断往下探索的过程,如果链接之间出现短路,蜘蛛就无法往前爬了。在真实的网站运营中,我们可以看到很多网页实际潜藏在网站后端,蜘蛛是无法抓取到的,比如没有预留入口链接,或者入口链接已经失效等,这些无法抓取到的内容和信息,对于蜘蛛来说就是一个个的孤岛,对SEO人员来说就是没有完全发挥内容的引流作用。同时,因为网络环境或者网站规范等原因也可能导致蜘蛛无法爬行。


如何解决信息无法被抓取到的问题?几个可行的办法如下。


・采用搜索引擎平台提供的开发平台等数据上传通道,可以针对数据进行独立的提交。


・采用Sitemap提交方式。大型网站或者结构比较特殊的网站,沉淀了大量的历史页面,这些历史页面很多具有SEO的价值,但是蜘蛛无法通过正常的爬行抓取到,针对这些页面,建立Sitemap文件并提交给百度等搜索引擎是非常必要的。


蜘蛛在爬行网站的时候,会遵循网站的协议进行抓取,比如哪些网页可以给搜索引擎抓取,哪些不允许搜索引擎抓取。常见的协议有HTTP协议、HTTPS协议、Robots协议等。


HTTP协议规范了客户端和服务器端请求和应答的标准。客户端一般是指终端用户,服务器端指网站。终端用户通过浏览器、蜘蛛等向服务器指定端口发送HTTP请求。发送HTTP请求会返回对应的HTTPHeader信息,我们可以看到包括是否成功、服务器类型、网页最近更新时间等内容。


HTTPS协议是一种加密协议,一般用户安全数据的传输。HTTPS是在HTTP下增加了SSL层,这类页面应用比较多的是和支付相关或者内部保密信息相关的网页。蜘蛛不会自动爬行该类网页。因此,从SEO角度考虑,在建站的时候,尽量对页面的性质进行区分,对非保密页面进行HTTP处理,才能实现网页的抓取和收录。


扫码关注我们
小程序二维码

查看演示

微信公众号二维码

关注微信公众号

你觉得这篇文章怎么样?

本文标签: 网站优化

关于小二CMS

高端定制网站领域著名服务商

我们立足合肥,业务覆盖安徽、全国及全球市场。我们凭借一支经验丰富、创意独特、协作无间的专业技术团队,专注于将最优技术通过高效简捷的途径呈现给客户,量身打造最佳解决方案。我们致力于通过持续努力,成为客户在信息化领域值得托付、共创价值的长期战略合作伙伴,协助客户在新经济时代敏锐捕捉商机,拓展发展空间,构筑强大竞争力。

小程序开发
公众号开发
高端网站开发
系统开发
商城开发
外贸网站建设
网站优化推广
安全运维

扫描二维码与小二CMS创始人沟通

7×24小时专业技术支持

高端网站定制
系统开发(OA、CRM)
商城开发
外贸网站建设
公众号/小程序
安全运维
创始人微信二维码

扫一扫添加微信

关于我们

超讯兴网络科技一家专注于高端网站建设、微信小程序开发、移动端应用研发及企业数字化转型服务的技术驱动型企业。我们致力于通过前沿技术研发实力与匠心独运的创意设计,为客户提供从策划、设计到开发、部署运维的一站式数字化解决方案。

自2013年成立以来,我们已成功交付3000+个精品项目,服务客户遍布金融、零售、制造、教育、医疗、互联网等多个行业领域。我们拥有资深的技术团队与丰富的实战经验,擅长复杂业务逻辑梳理与建模、高性能系统架构设计、跨平台应用开发、用户体验(UX/UI)深度优化及企业级系统安全保障。

我们相信,每一个成功的项目都源于对客户需求的深刻理解与极致追求。选择超讯兴网络科技,就是选择一个懂技术、懂设计、更懂您业务痛点的数字化成长伙伴,让我们携手将您的品牌愿景与市场机遇转化为可落地的数字现实,共同驱动业务增长与品牌价值升级。

致力于通过数字化技术赋能企业,帮助客户实现业务增长与品牌升级,成为您值得信赖的技术合作伙伴。

我们的优势
01

七年专注高端网站建设

02

服务上千企业积淀厚口碑

03

资深策划洞悉行业与用户

04

前沿技术栈紧跟时代发展

05

前端代码深度优化SEO友好

06

千家成功案例品质可信赖

07

精英团队高效协同创精品

08

多重防护保障数据安全

09

独家源码出售握牢自主权

10

完善售后体系全程护无忧

11

快速响应需求变更迭代

12

架构灵活支持二次开发

13

云服务器部署稳定可靠

14

免费提供一年技术支持

15

项目按期交付信誉保障

16

数据定期备份安全无忧

我们的不同

我们是一支年轻而充满激情的团队,痴迷代码,沉醉设计,坚信设计与编程不仅是工作,更是生活的信仰——"非设计,不生活;无兄弟,不编程!"

团队成员来自国内外顶尖设计公司与软件企业,精通网站设计与开发,已成功交付数百个项目,涵盖品牌官网、电商平台、小程序及移动端应用。

使命 以技术之力,助力改变命运
宗旨 客户第一,品质至上
信念 客户的成功,才是我们真正的成功

产品演示

产品演示二维码

请使用微信扫描二维码

查看产品演示

QQ客服

扫码添加好友,随时为您解答

QQ二维码

扫描二维码添加客服

QQ号:460623785
或保存二维码在QQ中识别

微信客服

扫码添加好友,随时为您解答

微信二维码

扫描二维码添加客服

微信号:
或保存二维码在微信中识别

微信咨询
QQ咨询
电话咨询
在线客服
回到顶部