源码论坛,商业源码下载,尽在锦尚中国商业源码论坛

标题: 常见搜素引霆蜘蛛罗列与robots mete标签的写法 [打印本页]

作者: 广知不易 时间: 2013-10-25 15:24
标题: 常见搜素引霆蜘蛛罗列与robots mete标签的写法
　　写网站robots时除了使用通配符*来拦截所有搜索引擎，还有就是可以精确拦截，
　　下面以邮轮乘务网www.intlcruisejob.com 为例
　　user-agent：baiduspider
　　disallow：/puls
　　user-agent:*
　　allow: /puls
　　以上的语句的含义是，不允许百度蜘蛛访问网站下的puls文件夹，而允许其他浏览器访问这样百度蜘蛛就不会抓取你的puls文件了，而其他的浏览器可以。这样写为什么会其作用呢？因为每个搜索引擎爬虫来抓取你的网站内容时，他会先访问你的robots文件，在robots文件中他会先寻找和自己名字相同的user-agent:语句，如果找到就是用该规则，没有找到则使用user-agent*。
　　下面我罗列一下各大搜索引擎爬虫程序的名称：
　　Google：googlebot
　　Baidu ：baiduspider
　　Yahoo：yahooslurp
　　Yodao：yodaobot
　　Sogou： sogouspider
　　msn： msnbot
　　robots除了可以写到网站根目录下以外，还可以写到页面头文件中，具体格式与语法是：
　　格式是<meta name=””,content=””>
　　Name=”robots” 指在对应所有机器人，
　　Name=“baiduspider” 指在对应百度蜘蛛，当让也可以是其他的一些浏览器爬虫名称。
　　Content属性有四个参数分别为 index，follow，noindex,nofllow
　　Index表示允许抓取
　　Follow表示允许在该页面抓取下去，
　　剩下两个是与前面两个正好反过来的。
　　这上面的四个参数有四个中组合，这我就不一一罗列，用手指头想想都能明白，以上文章全部手码，希望能给对seo感兴趣的读者带来帮助

欢迎光临源码论坛,商业源码下载,尽在锦尚中国商业源码论坛 (https://bbs.52jscn.com/)