源码论坛,商业源码下载,尽在锦尚中国商业源码论坛
标题:
如何像蜜蜂般选择网站抓取网页
[打印本页]
作者:
salife
时间:
2012-5-21 14:05
标题:
如何像蜜蜂般选择网站抓取网页
看到一张图片,是一只蜜蜂在一朵盛开的花上采蜜。那么在大自然中蜜蜂采蜜跟搜索引擎抓取网页又有着什么样的关联呢?
蜜蜂在采集花蜜时,对花朵是有选择的,一般的含苞或者是那些刚刚开放的花,蜜蜂是不进行采集的,它的采摘对象一般都是一些盛开的花蜜或者分泌物含量比较高的花朵。而搜索引擎也正如蜜蜂采蜜一样,对网站也是有选择性的。
搜索引擎比较喜欢那些主题与内容相关性较强的,具有实用性与真实性,内容文章丰满而且有料的网站。对于那些垃圾站,搜索引擎一般不闻不问,有些采用黑帽的网站,搜索引擎直接将之K掉。
那么,“蜜蜂”是怎么找到“蜜源”的呢?
一般网站刚建站的时候,建立一个robot.txt文件放在站点的根目录下面,内部优化完成之后将网站提交到各个搜索引擎的提交入口。搜索引擎访问网站时查看的第一个文件就是robot.txt。Robots.txt文件告诉蜘蛛程序在服务器上可以看哪些文件。当蜘蛛访问一个站点时,首先检查这个网站的根目录下是否存在robots.txt,如果存在,蜘蛛就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。当然要让搜索引擎找到你的主页,必须要有外链,www.z051.com找到你的主页之后才能根据你网站的结构爬到更深的地方,一般树状结构深受蜘蛛喜爱,并且网页之间要有比较好的连接,从而使得搜索引擎可以沿着链接找到更多的网页。
“采蜜”的过程
一.搜索引擎看网站的结构设计
大家都知道一个网站的结构决定了一个网站的方向与面向的市场有多大,网站的结构是基础的,只有在良好的基础上才能让网站的技术很好的发挥出来。一般搜索引擎喜爱树状的网站结构,能非常好的将我那个站的内容与内容的层次表现出来。而且,用户在访问网站的时候能够更好的找到信息,根据网站内部的一些链接,轻松的获取。
二.搜索引擎看网站内容是否是原创及伪原创内容
看网站内容是否是从别的网站转载或者直接的复制粘贴,搜索引擎对原创的文章特别的喜爱,如果是发表一些高质量的原创文章,搜索引擎会立马收录。针对不同的人,选择的方向也是不一样的,有些SEO(搜索引擎优化)er刚学习不久,可以先进行伪原创,伪原创也是需要技术含量的,伪原创的好,搜索引擎也会很友好的收录。等到对SEO(搜索引擎优化)技术有了自己一定的见解,可以写一些比较有技术含量的原创文章。
三.搜索引擎看网站更新的频率
网站的内容是否有每日更新,更新的内容是否具有质量都是搜索引擎评价一个网站的一部分。网站更新的越频繁,蜘蛛也就爬的越来越勤快,网站的文章收录也会随着增加。
四.搜索引擎看网站的权重
在搜索引擎看网站是否有被收录,看收录条列有多少,收录越多,说明网站的权重越高,而且如果网站如果持续更新的话,权重也是随着不断增加。
欢迎光临 源码论坛,商业源码下载,尽在锦尚中国商业源码论坛 (https://bbs.52jscn.com/)
Powered by Discuz! X3.3