源码论坛公告:本站是一个交流学习建站资源的社区论坛,旨在交流学习源码脚本等资源技术,欢迎大家投稿发言! 【点击此处将锦尚放在桌面

源码论坛,商业源码下载,尽在锦尚中国商业源码论坛

 找回密码
 会员注册

QQ登录

只需一步,快速开始

查看: 617|回复: 0
打印 上一主题 下一主题

[交流] 浅谈robots文件规则使用的几个误区

[复制链接]

555

主题

783

帖子

650

金币

初级会员

www.237k.com

Rank: 1

积分
2426
跳转到指定楼层
1#
发表于 2012-4-29 23:26:35 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
     robots.txt文件的规则的误区,然后发现其实不止那些,还有很多大家没有注意的误区。

  今天重新列举一下常见的robots.txt实际使用中的误区:

  误区1.Allow包含的范围超过Disallow,并且位置在Disallow前面。

  比如有很多人这样写:

  User-agent: *

  Allow: /

  Disallow: /mulu/

  想让所有蜘蛛抓取本站除/mulu/下面的url之外的所有页面,禁止抓取/mulu/下面的所有url。

  搜索引擎蜘蛛执行的规则是从上到下,这样会造成第二句命令失效。也就是说禁止抓取/mulu/目录这条规则是无效的。正确的是Disallow应该在Allow之上,这样才会生效。

  误区2.屏蔽的目录后没有带斜杠”/”。

  也就是比如想屏蔽抓取/mulu/这个目录,有些人这样写Disallow: /mulu。那么这样是否正确呢?

  首先这样写(Disallow: /mulu)确实可以屏蔽/mulu/下面的所有url,不过同时也屏蔽了类似/mulu123.html这种开头为/mulu的所有页面,效果等同于Disallow: /mulu*。

  正确的做法是,如果只想屏蔽目录,那么必须在结尾带上斜杠”/”。

  误区3.Disallow命令和Allow命令之后没有以斜杠”/”开头。

  这个也很容易被忽视,比如有人这样写Disallow: 123.html ,这种是没有效果的。斜杠”/”表示的是文件对于根目录的位置,如果不带的话,自然无法判断url是哪个,所以是错误的。

  正确的应该是Disallow: /123.html,这样才能屏蔽/123.html这个文件,这条规则才能生效。本文由 淘宝网聚划算 http://www.77la.net 整理发布

分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 分享分享
最多人玩的237k美女小游戏 http://www.237k.com/ 在线小游戏大全
您需要登录后才可以回帖 登录 | 会员注册

本版积分规则

锦尚中国源码论坛

聚合标签|锦尚中国,为中国网站设计添动力 ( 鲁ICP备09033200号 ) |网站地图

GMT+8, 2024-11-18 00:28 , Processed in 0.144550 second(s), 25 queries .

带宽由 锦尚数据 提供 专业的数据中心

© 锦尚中国源码论坛 52jscn Inc. 非法入侵必将受到法律制裁 法律顾问:IT法律网 & 褚福省律师 锦尚爱心 版权申诉 版权与免责声明