源码论坛,商业源码下载,尽在锦尚中国商业源码论坛
标题:
常见搜素引霆蜘蛛罗列与robots mete标签的写法
[打印本页]
作者:
广知不易
时间:
2013-10-25 15:24
标题:
常见搜素引霆蜘蛛罗列与robots mete标签的写法
写网站robots时除了使用通配符*来拦截所有搜索引擎,还有就是可以精确拦截,
下面以邮轮乘务网www.intlcruisejob.com 为例
user-agent:baiduspider
disallow:/puls
user-agent:*
allow: /puls
以上的语句的含义是,不允许百度蜘蛛访问网站下的puls文件夹,而允许其他浏览器访问这样百度蜘蛛就不会抓取你的puls文件了,而其他的浏览器可以。这样写为什么会其作用呢?因为每个搜索引擎爬虫来抓取你的网站内容时,他会先访问你的robots文件,在robots文件中他会先寻找和自己名字相同的user-agent:语句,如果找到就是用该规则,没有找到则使用user-agent*。
下面我罗列一下各大搜索引擎爬虫程序的名称:
Google:googlebot
Baidu :baiduspider
Yahoo:yahooslurp
Yodao:yodaobot
Sogou: sogouspider
msn: msnbot
robots除了可以写到网站根目录下以外,还可以写到页面头文件中,具体格式与语法是:
格式是<meta name=””,content=””>
Name=”robots” 指在对应所有机器人,
Name=“baiduspider” 指在对应百度蜘蛛,当让也可以是其他的一些浏览器爬虫名称。
Content属性有四个参数分别为 index,follow,noindex,nofllow
Index表示允许抓取
Follow表示允许在该页面抓取下去,
剩下两个是与前面两个正好反过来的。
这上面的四个参数有四个中组合,这我就不一一罗列,用手指头想想都能明白,以上文章全部手码,希望能给对seo感兴趣的读者带来帮助
欢迎光临 源码论坛,商业源码下载,尽在锦尚中国商业源码论坛 (https://bbs.52jscn.com/)
Powered by Discuz! X3.3