源码论坛公告:本站是一个交流学习建站资源的社区论坛,旨在交流学习源码脚本等资源技术,欢迎大家投稿发言! 【点击此处将锦尚放在桌面

源码论坛,商业源码下载,尽在锦尚中国商业源码论坛

 找回密码
 会员注册

QQ登录

只需一步,快速开始

查看: 732|回复: 0
打印 上一主题 下一主题

[交流] 搜索引擎爬虫对网站爬行过多的负面影响

[复制链接]

130

主题

130

帖子

3

金币

初级会员

Rank: 1

积分
97
QQ
跳转到指定楼层
1#
发表于 2013-12-18 13:40:27 | 只看该作者 回帖奖励 |正序浏览 |阅读模式
一、搜索引擎的蜘蛛,是不是爬得越多越好?
  当然不是!不论什么搜索引擎的爬虫,来抓取你网站的页面的时分,必定在耗费你的网站资源,例如网站的连接数、网络带宽资源(空间流量)、服务器的负载、乃至还有盗链等。不是一切的搜索引擎蜘蛛都是有用的。别的,搜索引擎的爬虫来抓取你的页面数据后,它也不必定收用数据。只代表它“到此一游”留下痕迹罢了,有的搜索引擎室成心过来找它想要的资源,乃至还有许多是开发人员的蜘蛛测验。
  关于一个自创内容丰富,URL布局合理易于爬取的网站来说,几乎即是各种爬虫的盘中大餐,许多网站的拜访流量构成傍边,爬虫带来的流量要远远超越实在用户拜访流量,乃至爬虫流量要高出实在流量一个数量级。像进步网站有用运用率尽管设置了适当严厉的反爬虫战略,可是网站处置的动态恳求数量仍然是实在用户拜访流量的2倍。能够必定的说,当今互联网的网络流量至少有2/3的流量爬虫带来的。因而反搜索引擎爬虫是一个值得网站长时间探究和处理的疑问。
  1.网站有限的带宽资源,而爬虫的量过多,致使正常用户拜访缓慢。本来虚拟主机主机的连接数受限,带宽资源也是有限。这种状况搜索引擎爬虫受影响出现更显着。
  2.搜索引擎爬虫过频密,抓取扫描许多无效页面。乃bianpinqiw.com至抓页面抓到服务器报502、500 、504 等服务器内部错误了,蜘蛛爬虫还在不断用力抓取。
  3.与网站主题不相关的搜索引擎爬虫耗费资源。
  典型的比如搜索引擎“一淘网蜘蛛(EtaoSpider)为一淘网抓取东西。被各大电子商务购物网站屏蔽。回绝一淘网抓取其商品信息及用户发生的点评内容。被制止的缘由首要应该是它们之间没有协作互利的联系,还有即是EtaoSpider爬虫是一个抓取最张狂的蜘蛛。计算发现EtaoSpider爬虫的一天匍匐量比“baidu蜘蛛:Baiduspider”“360蜘蛛:360Spider”“SOSO蜘蛛:Sosospider”等干流蜘蛛爬虫多几倍,并且是远远的多。重点是EtaoSpider被抓取只会耗费你的网站资源,它不会给你带来拜访量,或许其它对你有运用的。
  4.一些搜索引擎开发程序员,它们写的爬虫程序在测验匍匐。
  5.robots.txt文件不是全能!
  必定有许多人以为,在robots.txt设置屏蔽搜索引擎爬虫即可,或许答应某些特定的搜索引擎爬虫,能到达你料想作用。不错规范搜索引擎会遵守规矩,不过不会及时收效。可是实践中某些蜘蛛通常不是这样的,先扫描抓取你的页面,无视你的robots.txt。也能够它抓取后不必定留用;或许它仅仅计算信息,搜集互联网职业趋势剖析计算。
  6.还有一种它们不是蜘蛛,但其有蜘蛛的特性。例如搜集软件,搜集程序,网络扫描e-mail地址的东西,林林总总的SEO剖析计算东西,千奇百怪的网站缝隙扫描东西等等。
  二、有用指引搜索引擎对应的办法,及处理办法:
  1.依据空间流量实践状况,就保存几个常用的屏蔽掉其它蜘蛛以节约流量。以暂时空间流量还满足运用,先确保正常浏览器优先。
  2.从服务器防火墙iptable直接屏蔽蜘蛛IP段、具体的IP。这是最直接、有用的屏蔽办法。
  3.WWW服务器层面做约束。例如Nginx,Squid,Lighttpd,直接经过“http_user_agent”屏蔽搜索引擎爬虫。
  4.最终robots.txt文件做约束。搜索引擎世界规矩仍是要遵从规矩的。
  三、搜集最新最精确各大搜索引擎蜘蛛称号
  依据线上空间的拜访日志来收拾常见的蜘蛛称号,不求bianxin.net最全,但力求爬虫信息材料最新最精确。以下搜索引擎蜘蛛称号都是依据线上空间日志亲手获取。
  各种搜索引擎的蜘蛛爬虫会不断地拜访抓取咱们站点的内容,也会耗费站点的必定流量,有时分就需要屏蔽某些蜘蛛拜访咱们的站点。
  其实有用常用的搜索引擎就那么几个,只要在robots.txt文件里把常用的几个搜索引擎蜘蛛答应放行就好了,其它的爬虫通通经过通配符(*)制止掉,屏蔽某些蜘蛛。
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 分享分享
您需要登录后才可以回帖 登录 | 会员注册

本版积分规则

锦尚中国源码论坛

聚合标签|锦尚中国,为中国网站设计添动力 ( 鲁ICP备09033200号 ) |网站地图

GMT+8, 2025-2-8 15:33 , Processed in 0.102513 second(s), 27 queries .

带宽由 锦尚数据 提供 专业的数据中心

© 锦尚中国源码论坛 52jscn Inc. 非法入侵必将受到法律制裁 法律顾问:IT法律网 & 褚福省律师 锦尚爱心 版权申诉 版权与免责声明