源码论坛,商业源码下载,尽在锦尚中国商业源码论坛

标题: 常见搜素引霆蜘蛛罗列与robots mete标签的写法 [打印本页]

作者: 广知不易    时间: 2013-10-25 15:24
标题: 常见搜素引霆蜘蛛罗列与robots mete标签的写法
  写网站robots时除了使用通配符*来拦截所有搜索引擎,还有就是可以精确拦截,
  下面以邮轮乘务网www.intlcruisejob.com 为例
  user-agent:baiduspider
  disallow:/puls
  user-agent:*
  allow: /puls
  以上的语句的含义是,不允许百度蜘蛛访问网站下的puls文件夹,而允许其他浏览器访问这样百度蜘蛛就不会抓取你的puls文件了,而其他的浏览器可以。这样写为什么会其作用呢?因为每个搜索引擎爬虫来抓取你的网站内容时,他会先访问你的robots文件,在robots文件中他会先寻找和自己名字相同的user-agent:语句,如果找到就是用该规则,没有找到则使用user-agent*。
  下面我罗列一下各大搜索引擎爬虫程序的名称:
  Google:googlebot
  Baidu :baiduspider
  Yahoo:yahooslurp
  Yodao:yodaobot
  Sogou: sogouspider
  msn:   msnbot
  robots除了可以写到网站根目录下以外,还可以写到页面头文件中,具体格式与语法是:
  格式是<meta name=””,content=””>
  Name=”robots”  指在对应所有机器人,
  Name=“baiduspider” 指在对应百度蜘蛛,当让也可以是其他的一些浏览器爬虫名称。
  Content属性有四个参数分别为 index,follow,noindex,nofllow
  Index表示允许抓取
  Follow表示允许在该页面抓取下去,
  剩下两个是与前面两个正好反过来的。
  这上面的四个参数有四个中组合,这我就不一一罗列,用手指头想想都能明白,以上文章全部手码,希望能给对seo感兴趣的读者带来帮助





欢迎光临 源码论坛,商业源码下载,尽在锦尚中国商业源码论坛 (https://bbs.52jscn.com/) Powered by Discuz! X3.3