源码论坛,商业源码下载,尽在锦尚中国商业源码论坛

标题: 搜索引擎爬虫对网站爬行过多的负面影响 [打印本页]

作者: ttjymyngfn 时间: 2013-12-18 13:40
标题: 搜索引擎爬虫对网站爬行过多的负面影响
一、搜索引擎的蜘蛛，是不是爬得越多越好?
　　当然不是!不论什么搜索引擎的爬虫，来抓取你网站的页面的时分，必定在耗费你的网站资源，例如网站的连接数、网络带宽资源(空间流量)、服务器的负载、乃至还有盗链等。不是一切的搜索引擎蜘蛛都是有用的。别的，搜索引擎的爬虫来抓取你的页面数据后，它也不必定收用数据。只代表它“到此一游”留下痕迹罢了，有的搜索引擎室成心过来找它想要的资源，乃至还有许多是开发人员的蜘蛛测验。
　　关于一个自创内容丰富，URL布局合理易于爬取的网站来说，几乎即是各种爬虫的盘中大餐，许多网站的拜访流量构成傍边，爬虫带来的流量要远远超越实在用户拜访流量，乃至爬虫流量要高出实在流量一个数量级。像进步网站有用运用率尽管设置了适当严厉的反爬虫战略，可是网站处置的动态恳求数量仍然是实在用户拜访流量的2倍。能够必定的说，当今互联网的网络流量至少有2/3的流量爬虫带来的。因而反搜索引擎爬虫是一个值得网站长时间探究和处理的疑问。
　　1.网站有限的带宽资源，而爬虫的量过多，致使正常用户拜访缓慢。本来虚拟主机主机的连接数受限，带宽资源也是有限。这种状况搜索引擎爬虫受影响出现更显着。
　　2.搜索引擎爬虫过频密，抓取扫描许多无效页面。乃bianpinqiw.com至抓页面抓到服务器报502、500 、504 等服务器内部错误了，蜘蛛爬虫还在不断用力抓取。
　　3.与网站主题不相关的搜索引擎爬虫耗费资源。
　　典型的比如搜索引擎“一淘网蜘蛛(EtaoSpider)为一淘网抓取东西。被各大电子商务购物网站屏蔽。回绝一淘网抓取其商品信息及用户发生的点评内容。被制止的缘由首要应该是它们之间没有协作互利的联系，还有即是EtaoSpider爬虫是一个抓取最张狂的蜘蛛。计算发现EtaoSpider爬虫的一天匍匐量比“baidu蜘蛛：Baiduspider”“360蜘蛛：360Spider”“SOSO蜘蛛：Sosospider”等干流蜘蛛爬虫多几倍，并且是远远的多。重点是EtaoSpider被抓取只会耗费你的网站资源，它不会给你带来拜访量，或许其它对你有运用的。
　　4.一些搜索引擎开发程序员，它们写的爬虫程序在测验匍匐。
　　5.robots.txt文件不是全能!
　　必定有许多人以为，在robots.txt设置屏蔽搜索引擎爬虫即可，或许答应某些特定的搜索引擎爬虫，能到达你料想作用。不错规范搜索引擎会遵守规矩，不过不会及时收效。可是实践中某些蜘蛛通常不是这样的，先扫描抓取你的页面，无视你的robots.txt。也能够它抓取后不必定留用;或许它仅仅计算信息，搜集互联网职业趋势剖析计算。
　　6.还有一种它们不是蜘蛛，但其有蜘蛛的特性。例如搜集软件，搜集程序，网络扫描e-mail地址的东西，林林总总的SEO剖析计算东西，千奇百怪的网站缝隙扫描东西等等。
　　二、有用指引搜索引擎对应的办法，及处理办法：
　　1.依据空间流量实践状况，就保存几个常用的屏蔽掉其它蜘蛛以节约流量。以暂时空间流量还满足运用，先确保正常浏览器优先。
　　2.从服务器防火墙iptable直接屏蔽蜘蛛IP段、具体的IP。这是最直接、有用的屏蔽办法。
　　3.WWW服务器层面做约束。例如Nginx，Squid，Lighttpd，直接经过“http_user_agent”屏蔽搜索引擎爬虫。
　　4.最终robots.txt文件做约束。搜索引擎世界规矩仍是要遵从规矩的。
　　三、搜集最新最精确各大搜索引擎蜘蛛称号
　　依据线上空间的拜访日志来收拾常见的蜘蛛称号，不求bianxin.net最全，但力求爬虫信息材料最新最精确。以下搜索引擎蜘蛛称号都是依据线上空间日志亲手获取。
　　各种搜索引擎的蜘蛛爬虫会不断地拜访抓取咱们站点的内容，也会耗费站点的必定流量，有时分就需要屏蔽某些蜘蛛拜访咱们的站点。
　　其实有用常用的搜索引擎就那么几个，只要在robots.txt文件里把常用的几个搜索引擎蜘蛛答应放行就好了，其它的爬虫通通经过通配符(*)制止掉，屏蔽某些蜘蛛。

欢迎光临源码论坛,商业源码下载,尽在锦尚中国商业源码论坛 (https://bbs.52jscn.com/)