源码论坛,商业源码下载,尽在锦尚中国商业源码论坛
标题:
Robots.txt编写似雷区 稍有不慎“毒害甚深”(一)
[打印本页]
作者:
wyhuang
时间:
2012-4-6 22:56
标题:
Robots.txt编写似雷区 稍有不慎“毒害甚深”(一)
每团体都有本人的隐私,网站也是这样,网站中也有不希望被蜘蛛看到的东西,比方会员密码等等,而想要遮挡住这局部隐私,普通状况下站长都会在第一工夫想到Robots.txt。没错,Robots.txt文件的运用确实可以给蜘蛛指明路途,通知它什么地方该去,什么地方不该去,也正是由于这点缘由,很多站长都热衷于用Robots.txt,但是大家真的会用Robots.txt吗?关于它的编写规则大家又晓得多少呢?自己不才,但关于这方面总归有点经历,在这分享出来,让大家有个参考,当然老鸟可以飞过了。 Robots.txt编写的顺序成绩
举个最复杂的例子,假如你想让本人a文件中的b.html被抓取,那么你怎样编写呢?是 Allow:/a/b.html Disallow:/a/ 还是Disallow:/a/ Allow:/a/b.html这样?
在Robots.txt编写规则中,它并不执行树状剖析构造,换句话说编写时并不应该把母文件夹放在最前,而是遵照一种就近准绳,假如我们把母文件夹放在后面,蜘蛛会以为这个途径被封锁了,不能拜访,而我们最终的目的却是拜访,这样一来,目的和实践就大相迳庭了。 Robots.txt编写的开放性成绩
很多站长,尤其是老手站长关于Robots.txt的了解过于片面,他们以为既然Robots.txt可以规则蜘蛛的拜访途径,那我们何必不开放,把一切文件都设置成可拜访,这样一来网站的收录量不久立刻上升了,其实成绩远远没有我们想象的复杂,大家都晓得网站中一些固定的文件是不用传送给搜索引擎拜访的,假如我们把网站“全方位开放”,结果就是加大网站效劳器负载,降低拜访速度,减缓蜘蛛的匍匐率,关于网站收录没有一点用途,所以关于固定不需求拜访的文件,我们间接Disallow掉就可以了。 普通状况下,网站不需求拜访的文件有后台管理文件、顺序脚本、附件、数据库文件、等等。
Robots.txt编写的反复性成绩 我们每天都在写着原创内容,然后更新到本人的网站中,大家想过没有我们这样做的目的是什么?当然是为了讨搜索引擎的好,大家都晓得搜索引擎很看重原创内容,关于原创内容的收录很快,相反,假如你的网站中充满着少量的复制内容,那么我只能遗憾的通知你,网站的出路一片渺茫。不过这也从另一个方面通知我们要积极的应用robots文件制止反复页面的代码,降低页面的反复度,但是在编写robots文件时一定要记得
在User-agent后参加某个搜索引擎,例如User-agent:BaiduSpider Disallow:/,假如没有参加,编写成User-agent: * Disallow: /方式,则是对网站一切内容的“屏蔽”。 Robots.txt编写的meta成绩
在 Robots.txt编写规则中,有一个取最强参数规律,而且假如网站以及页面标签上同时呈现robots.txt文件和meta标签,那么搜索引擎就会听从两个规则中较为严厉的一个,即制止搜索引擎关于某个页面的索引,当然假如robots.txt文件和meta标签不是呈现一个文件中,那么搜索引擎就会遵照就近准绳,就会索引meta标签前的一切文件。 Robots.txt编写的细节性成绩
1.反斜杠的拔出 还是以Disallow:/a/b.html为例,在编写该语句的时分,假如遗忘参加了反斜杠,则是对全部内容停止开放,这与编写语句的想法相悖,由于反斜杠的意义是根目录。
2.空格的呈现 空格的呈现就很好了解了,由于搜索引擎关于这个特殊符号的呈现并不辨认,它的参加只会使语句得到应有的功效。
如今大家了解我为什么说有人晓得robots.txt文件,但是少有人晓得该怎样正确编写了robots.txt文件了吧。其实robots.txt文件中还会其他的细节以及留意成绩,在当前的工夫里我会持续和说一下robots.txt文件编写中触及到的目录大小、user-agent的数量等成绩。
文章来源股评博客http://www.niulaile.com/stockblog/,欢迎转载下载。
欢迎光临 源码论坛,商业源码下载,尽在锦尚中国商业源码论坛 (https://bbs.52jscn.com/)
Powered by Discuz! X3.3