源码论坛,商业源码下载,尽在锦尚中国商业源码论坛
标题:
搜索引擎爬虫对网站爬行过多的负面影响
[打印本页]
作者:
ttjymyngfn
时间:
2013-12-18 13:40
标题:
搜索引擎爬虫对网站爬行过多的负面影响
一、搜索引擎的蜘蛛,是不是爬得越多越好?
当然不是!不论什么搜索引擎的爬虫,来抓取你网站的页面的时分,必定在耗费你的网站资源,例如网站的连接数、网络带宽资源(空间流量)、服务器的负载、乃至还有盗链等。不是一切的搜索引擎蜘蛛都是有用的。别的,搜索引擎的爬虫来抓取你的页面数据后,它也不必定收用数据。只代表它“到此一游”留下痕迹罢了,有的搜索引擎室成心过来找它想要的资源,乃至还有许多是开发人员的蜘蛛测验。
关于一个自创内容丰富,URL布局合理易于爬取的网站来说,几乎即是各种爬虫的盘中大餐,许多网站的拜访流量构成傍边,爬虫带来的流量要远远超越实在用户拜访流量,乃至爬虫流量要高出实在流量一个数量级。像进步网站有用运用率尽管设置了适当严厉的反爬虫战略,可是网站处置的动态恳求数量仍然是实在用户拜访流量的2倍。能够必定的说,当今互联网的网络流量至少有2/3的流量爬虫带来的。因而反搜索引擎爬虫是一个值得网站长时间探究和处理的疑问。
1.网站有限的带宽资源,而爬虫的量过多,致使正常用户拜访缓慢。本来虚拟主机主机的连接数受限,带宽资源也是有限。这种状况搜索引擎爬虫受影响出现更显着。
2.搜索引擎爬虫过频密,抓取扫描许多无效页面。乃bianpinqiw.com至抓页面抓到服务器报502、500 、504 等服务器内部错误了,蜘蛛爬虫还在不断用力抓取。
3.与网站主题不相关的搜索引擎爬虫耗费资源。
典型的比如搜索引擎“一淘网蜘蛛(EtaoSpider)为一淘网抓取东西。被各大电子商务购物网站屏蔽。回绝一淘网抓取其商品信息及用户发生的点评内容。被制止的缘由首要应该是它们之间没有协作互利的联系,还有即是EtaoSpider爬虫是一个抓取最张狂的蜘蛛。计算发现EtaoSpider爬虫的一天匍匐量比“baidu蜘蛛:Baiduspider”“360蜘蛛:360Spider”“SOSO蜘蛛:Sosospider”等干流蜘蛛爬虫多几倍,并且是远远的多。重点是EtaoSpider被抓取只会耗费你的网站资源,它不会给你带来拜访量,或许其它对你有运用的。
4.一些搜索引擎开发程序员,它们写的爬虫程序在测验匍匐。
5.robots.txt文件不是全能!
必定有许多人以为,在robots.txt设置屏蔽搜索引擎爬虫即可,或许答应某些特定的搜索引擎爬虫,能到达你料想作用。不错规范搜索引擎会遵守规矩,不过不会及时收效。可是实践中某些蜘蛛通常不是这样的,先扫描抓取你的页面,无视你的robots.txt。也能够它抓取后不必定留用;或许它仅仅计算信息,搜集互联网职业趋势剖析计算。
6.还有一种它们不是蜘蛛,但其有蜘蛛的特性。例如搜集软件,搜集程序,网络扫描e-mail地址的东西,林林总总的SEO剖析计算东西,千奇百怪的网站缝隙扫描东西等等。
二、有用指引搜索引擎对应的办法,及处理办法:
1.依据空间流量实践状况,就保存几个常用的屏蔽掉其它蜘蛛以节约流量。以暂时空间流量还满足运用,先确保正常浏览器优先。
2.从服务器防火墙iptable直接屏蔽蜘蛛IP段、具体的IP。这是最直接、有用的屏蔽办法。
3.WWW服务器层面做约束。例如Nginx,Squid,Lighttpd,直接经过“http_user_agent”屏蔽搜索引擎爬虫。
4.最终robots.txt文件做约束。搜索引擎世界规矩仍是要遵从规矩的。
三、搜集最新最精确各大搜索引擎蜘蛛称号
依据线上空间的拜访日志来收拾常见的蜘蛛称号,不求bianxin.net最全,但力求爬虫信息材料最新最精确。以下搜索引擎蜘蛛称号都是依据线上空间日志亲手获取。
各种搜索引擎的蜘蛛爬虫会不断地拜访抓取咱们站点的内容,也会耗费站点的必定流量,有时分就需要屏蔽某些蜘蛛拜访咱们的站点。
其实有用常用的搜索引擎就那么几个,只要在robots.txt文件里把常用的几个搜索引擎蜘蛛答应放行就好了,其它的爬虫通通经过通配符(*)制止掉,屏蔽某些蜘蛛。
欢迎光临 源码论坛,商业源码下载,尽在锦尚中国商业源码论坛 (https://bbs.52jscn.com/)
Powered by Discuz! X3.3