源码论坛公告:本站是一个交流学习建站资源的社区论坛,旨在交流学习源码脚本等资源技术,欢迎大家投稿发言! 【点击此处将锦尚放在桌面

源码论坛,商业源码下载,尽在锦尚中国商业源码论坛

 找回密码
 会员注册

QQ登录

只需一步,快速开始

查看: 763|回复: 0
打印 上一主题 下一主题

[交流] Robots.txt编写似雷区 稍有不慎“毒害甚深”(一) - 优化技巧 - OurSEO 我们的SEO

[复制链接]

320

主题

327

帖子

865

金币

初级会员

Rank: 1

积分
1966
QQ
跳转到指定楼层
1#
发表于 2012-4-8 19:18:38 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
  每个人都有自己的隐私,网站也是这样,网站中也有不希望被蜘蛛看到的东西,比如会员密码等等,而想要遮挡住这部分隐私,一般情况下站长都会在第一时间想到Robots.txt。没错,Robots.txt文件的使用的确可以给蜘蛛指明道路,告诉它什么地方该去,什么地方不该去,也正是因为这点原因,很多站长都热衷于用Robots.txt,但是大家真的会用Robots.txt吗?对于它的编写规则大家又知道多少呢?本人不才,但对于这方面总归有点经验,在这分享出来,让大家有个参考,当然老鸟可以飞过了。  Robots.txt编写的顺序问题

  举个最简单的例子,如果你想让自己a文件中的b.html被抓取,那么你怎么编写呢?是  Allow:/a/b.html Disallow:/a/ 还是Disallow:/a/ Allow:/a/b.html这样?

  在Robots.txt编写规则中,它并不执行树状分析结构,换句话说编写时并不应该把母文件夹放在最前,而是遵循一种就近原则,如果我们把母文件夹放在前面,蜘蛛会认为这个途径被封闭了,不能访问,而我们最终的目的却是访问,这样一来,目标和实际就大相迳庭了。  Robots.txt编写的开放性问题

  很多站长,尤其是新手站长对于Robots.txt的理解过于片面,他们认为既然Robots.txt可以规定蜘蛛的访问途径,那我们何必不开放,把所有文件都设置成可访问,这样一来网站的收录量不久立即上升了,其实问题远远没有我们想象的简单,大家都知道网站中一些固定的文件是不必传送给搜索引擎访问的,如果我们把网站“全方位开放”,后果就是加大网站服务器负载,降低访问速度,减缓蜘蛛的爬行率,对于网站收录没有一点用处,所以对于固定不需要访问的文件,我们直接Disallow掉就可以了。  一般情况下,网站不需要访问的文件有后台管理文件、程序脚本、附件、数据库文件、等等。

  Robots.txt编写的重复性问题  我们每天都在写着原创内容,然后更新到自己的网站中,大家想过没有我们这样做的目的是什么?当然是为了讨搜索引擎的好,大家都知道搜索引擎很看重原创内容,对于原创内容的收录很快,相反,如果你的网站中充斥着大量的复制内容,那么我只能遗憾的告诉你,网站的前途一片渺茫。不过这也从另一个方面告诉我们要积极的利用robots文件禁止重复页面的代码,降低页面的重复度,但是在编写robots文件时一定要记得

  在User-agent后加入某个搜索引擎,例如User-agent:BaiduSpider Disallow:/,如果没有加入,编写成User-agent: * Disallow: /形式,则是对网站所有内容的“屏蔽”。  Robots.txt编写的meta问题

  在 Robots.txt编写规则中,有一个取最强参数法则,而且如果网站以及页面标签上同时出现robots.txt文件和meta标签,那么搜索引擎就会服从两个规则中较为严格的一个,即禁止搜索引擎对于某个页面的索引,当然如果robots.txt文件和meta标签不是出现一个文件中,那么搜索引擎就会遵循就近原则,就会索引meta标签前的所有文件。  Robots.txt编写的细节性问题

  1.反斜杠的插入  还是以Disallow:/a/b.html为例,在编写该语句的时候,如果忘记加入了反斜杠,则是对全部内容进行开放,这与编写语句的想法相悖,因为反斜杠的意义是根目录。

  2.空格的出现  空格的出现就很好理解了,因为搜索引擎对于这个特殊符号的出现并不识别,它的加入只会使语句失去应有的效用。

  现在大家理解我为什么说有人知道robots.txt文件,但是少有人知道该怎么正确编写了robots.txt文件了吧。其实robots.txt文件中还会其他的细节以及注意问题,在以后的时间里我会继续和说一下robots.txt文件编写中涉及到的目录大小、user-agent的数量等问题。
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 分享分享
您需要登录后才可以回帖 登录 | 会员注册

本版积分规则

锦尚中国源码论坛

聚合标签|锦尚中国,为中国网站设计添动力 ( 鲁ICP备09033200号 ) |网站地图

GMT+8, 2024-11-17 21:32 , Processed in 0.145323 second(s), 26 queries .

带宽由 锦尚数据 提供 专业的数据中心

© 锦尚中国源码论坛 52jscn Inc. 非法入侵必将受到法律制裁 法律顾问:IT法律网 & 褚福省律师 锦尚爱心 版权申诉 版权与免责声明