一、 抓取异常 是什么
Baiduspider无法正常抓取,就是抓取异常,对于大量内容无法正常抓取的网站,搜索引擎会认为网站存在 用户体验 上的缺陷,并降低对网站的评价,在抓取、索引、权重上都会受到一定程度的负面影响,最终影响到网站从百度获取的流量。
二、百度抓取异常的入口
登陆百度搜索资源平台,然后从" 搜索服务"找到" 抓取异常"点击进入,百度抓取异常工具入口链接为:。
百度抓取异常工具截图
百度抓取异常工具目前给出了服务器错误、访问被拒绝、找不到页面、其他错误共四类错误原因,可分别点击查看具体抓取错误的时间、数量以及链接等。通过错误网址进行查看与分析,确认页面的访问情况是否正常,从而查找出错的原因。
错误链接异常查看示例
注意:"链接异常"仅显示前1000条存在错误的网址,百度已对"找不到页面"进行 死链 屏蔽,站长无需再手动提交。
三、百度抓取异常的原因
1、网站异常的原因
(1)、dns异常
当Baiduspider无法解析您网站的IP时,会出现DNS异常。可能是您的网站 IP地址 错误,或者 域名 服务商把Baiduspider封禁。请使用WHOIS或者host查询自己网站IP地址是否正确且可解析,如果不正确或无法解析,请与域名注册商联系,更新您的IP地址。
(2)、连接超时
抓取请求连接超时,可能原因服务器过载,网络不稳定。
(3)、抓取超时
抓取请求连接建立后,下载页面速度过慢,导致超时,可能原因服务器过载,带宽不足。
(4)、连接错误
无法连接或者连接建立后对方服务器拒绝。
2、链接异常的原因
(1)、访问被拒绝
爬虫发起抓取,httpcode返回码是403。
(2)、找不到页面
爬虫发起抓取,httpcode返回码是404。
协议死链,表示用户已无法访问该页面内容,建议通过百度站长平台--死链工具提交死链的方式进行处理,以便搜索引擎更快地发现死链接,减少死链接对用户以及搜索引擎造成的负面影响。
(3)、服务器错误
爬虫发起抓取,httpcode返回码是5XX。
(4)、其他错误
爬虫发起抓取,httpcode返回码是4XX,不包括403和404。
四、百度抓取异常的影响
1、主动封禁 百度蜘蛛 抓取
站长由于站点承受压力问题或者其他原因您选择了禁止百度蜘蛛的抓取。如果站长的配置正确,并且DNS更新并生效后,百度的蜘蛛就不会对该站点的页面进行抓取,网站的页面也不会被收录。
2、被动出现的抓取异常
对于大量内容无法正常抓取的网站,搜索引擎会认为网站存在用户体验上的缺陷,并降低对网站的评价,在抓取、索引、权重上都会受到一定程度的负面影响,最终影响到网站从百度获取的流量。
五、抓取异常常见问答
1、什么是死链
页面已经无效,无法对用户提供任何有价值信息的页面就是死链接,包括协议死链和内容死链两种形式。
协议死链:页面的TCP协议状态/HTTP协议状态明确表示的死链,常见的如404、403、503状态等。
内容死链:服务器返回状态是正常的,但内容已经变更为不存在、已删除或需要权限等与原内容无关的信息页面。
对于死链,建议及时修复死链数据,或进行死链数据推送,以便搜索引擎更快地发现死链,减少死链对用户以及搜索引擎的影响。
2、什么是IP禁封
限制网络的出口IP地址,禁止该IP段的使用者进行内容访问,即为IP禁封。
3、什么是UA禁封
UA即为用户代理(User-Agent),服务器通过UA识别访问者的身份。当网站针对指定UA的访问,返回异常页面(如403,500)或跳转到其他页面的情况,即为UA禁封。
4、什么是异常重定向
将网络请求重新指向其他位置即为重定向。常见的重定向有两种:永久重定向(301跳转协议)和暂时重定向(302跳转协议),目前百度都可以识别和支持。对于长时间跳转到其他域名的情况,如网站更换域名,建议您使用301跳转协议。
5、还有哪些其他异常
针对百度refer的作弊:网页针对来自百度的refer返回不同于正常内容的行为。
针对百度ua的作弊:网页对百度UA返回不同于页面原内容的行为。
JS跳转作弊:网页加载了百度无法识别的JS跳转代码,使得用户通过搜索结果进入页面后发生了跳转的情况。
压力过大引起的偶然禁封:百度会根据站点的规模,访问量等信息,自动设定一个合理的抓取压力。但是在异常情况下,如压力控制失常时,服务器会根据自身负荷进行保护性的偶然封禁。这种情况下,请在返回码中返回503(其含义是 "Service Unavailable"),百度蜘蛛会过段时间再来尝试抓取这个链接,如果网站已空闲,则会被成功抓取。
总结
优化猩:网站如果出现抓取异常的链接,访问网站的用户不仅没有办法浏览想看的内容,大大降低用户体验,还会让搜索引擎认为网站质量不高,从而降低对网站的评价,所以网站出现抓取异常一定要及时排查问题并进行优化。
参考链接:
平台工具使用手册_抓取异常_百度搜索资源平台
站点抓取异常查询工具_百度搜索资源平台
抓取异常问答_搜索资讯_百度搜索资源平台
修改于2023-05-30
为什么百度收录的网站描述不是抓取网站description内容
1. 描述太短或太长, 少于网络显示的字节. (推荐: 搜索引擎允许描述的字符在150个左右, 不低于135个字符, 一个汉字为2个字符)2. 描述里面有乱码. (我注意到很多网页的描述是自动从文章中截取的, 如果包含乱码网络自动重新抓取. )3. 设置的描述标点/空格占比太多4. 网页没有设置description描述内容. (网络也会自动抓取)
我的百度快照正常显示,但点百度快照又无法显示,为什么?
你现象 网络快照抓去失败~ 但是很正常现象 因为网络反作弊团队搞反作弊系统出问题。 。 。 。 快一个月网络这个系统还没有恢复
我的网站为什么baidu收录很少
从网络推广和宣传角度来讲,你做的工作只不过是优化推广当中的一部分,网站的收录和网络蜘蛛爬虫的抓取是要考虑你网站的使用性和结构性的,比如网络抓取工具,对网站的抓取只认识字段和编码,也就是说对文字和内容的抓取是及时而准确的,但是对于一般的商城网站来说,首页的排版基本上都是图片和动画占据一大部分的,而网络抓取工具是不认识这些图片和动画的;所以这也正是你虽然有不断更新你网站里面的文章,但是网络收录上不去的原因,在这里,给你三点建议:1.购物商城的基本结构已经决定了你网站的更新和收录的情况,建议你商城里面的文章,可以不断更新,但要学会和其它网站做好链接,比如:你可以把你的客户的网站,或者朋友的,或者流量稍大的网站做好资源互换和链接2.网站的收录数量和你网站的权重有关,你可以用站长工具,查一下你网站的权重,也就是说你的网站在同类型网站中的地位,就像人的地位越高,享受的服务也就越好是一样的,所以需要你坚持3.你网站的曝光度越大,访问量越高,你的网站自然收录也会越高的,建议你以后要注重网站的流量和网站在行业网和门户网上面的曝光度 其它不清楚的可以加谢谢