源码论坛公告:本站是一个交流学习建站资源的社区论坛,旨在交流学习源码脚本等资源技术,欢迎大家投稿发言! 【点击此处将锦尚放在桌面

源码论坛,商业源码下载,尽在锦尚中国商业源码论坛

 找回密码
 会员注册

QQ登录

只需一步,快速开始

查看: 821|回复: 0
打印 上一主题 下一主题

[原创] 常见搜素引霆蜘蛛罗列与robots mete标签的写法

[复制链接]

17

主题

19

帖子

23

金币

初级会员

Rank: 1

积分
59
QQ
跳转到指定楼层
1#
发表于 2013-10-25 15:24:27 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
  写网站robots时除了使用通配符*来拦截所有搜索引擎,还有就是可以精确拦截,
  下面以邮轮乘务网www.intlcruisejob.com 为例
  user-agent:baiduspider
  disallow:/puls
  user-agent:*
  allow: /puls
  以上的语句的含义是,不允许百度蜘蛛访问网站下的puls文件夹,而允许其他浏览器访问这样百度蜘蛛就不会抓取你的puls文件了,而其他的浏览器可以。这样写为什么会其作用呢?因为每个搜索引擎爬虫来抓取你的网站内容时,他会先访问你的robots文件,在robots文件中他会先寻找和自己名字相同的user-agent:语句,如果找到就是用该规则,没有找到则使用user-agent*。
  下面我罗列一下各大搜索引擎爬虫程序的名称:
  Google:googlebot
  Baidu :baiduspider
  Yahoo:yahooslurp
  Yodao:yodaobot
  Sogou: sogouspider
  msn:   msnbot
  robots除了可以写到网站根目录下以外,还可以写到页面头文件中,具体格式与语法是:
  格式是<meta name=””,content=””>
  Name=”robots”  指在对应所有机器人,
  Name=“baiduspider” 指在对应百度蜘蛛,当让也可以是其他的一些浏览器爬虫名称。
  Content属性有四个参数分别为 index,follow,noindex,nofllow
  Index表示允许抓取
  Follow表示允许在该页面抓取下去,
  剩下两个是与前面两个正好反过来的。
  这上面的四个参数有四个中组合,这我就不一一罗列,用手指头想想都能明白,以上文章全部手码,希望能给对seo感兴趣的读者带来帮助
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 分享分享
您需要登录后才可以回帖 登录 | 会员注册

本版积分规则

锦尚中国源码论坛

聚合标签|锦尚中国,为中国网站设计添动力 ( 鲁ICP备09033200号 ) |网站地图

GMT+8, 2024-11-17 07:18 , Processed in 0.159189 second(s), 26 queries .

带宽由 锦尚数据 提供 专业的数据中心

© 锦尚中国源码论坛 52jscn Inc. 非法入侵必将受到法律制裁 法律顾问:IT法律网 & 褚福省律师 锦尚爱心 版权申诉 版权与免责声明