源码论坛,商业源码下载,尽在锦尚中国商业源码论坛

标题: 百度蜘蛛的爬行和抓取原理 [打印本页]

作者: lisa58    时间: 2012-6-2 16:12
标题: 百度蜘蛛的爬行和抓取原理
     相信所有SEO(搜索引擎优化)er都知道搜索引擎用户来爬行和访问页面的程序被称为蜘蛛(spider)或者我们也可以称之为机器人(bot)。搜索引擎蜘蛛访问网站页面时就好比我们普通用户使用的浏览器。蜘蛛程序发出页面访问请求后,服务器返回到HTML代码,蜘蛛程序把收到的代码存入到页面数据库。
   为了抓取网上尽可能多的页面。搜索引擎蜘蛛会跟踪页面上的链接,从一个页面爬到下一个页面,就好像蜘蛛在蜘蛛网上爬行那样,这也是搜索引擎蜘蛛名称的由来。
  最简单的爬行策略分为两种,一个是深度优先,另一个是广度优先。
  所谓深度优先,指的是蜘蛛沿着发现的一个链接一直向前爬行,知道前面再也没有其他链接,在返回到第一个页面,沿着另一个链接再一直往前爬行。
   广度优先是指蜘蛛在一个页面发现多个链接时,不是顺着一个链接一直先前爬行,而是把所有页面的第一层链接全部爬完,然后沿着第二层页面发现的链接爬向第三层页面。
   从理论上讲,无论是深度优先还是广度优先,只要给蜘蛛足够的时间,都能爬完整个网站。不过在实际工作中,蜘蛛的宽带有限,不可能爬完所有页面。实际上最大的搜索引擎也只是爬行和收录的互联网的一小部分。由此可见,理论上蜘蛛能爬行和抓取所有页面,但实际上不能。SEO(搜索引擎优化)er要想让自己更多的页面被收录,就要想方设法的吸引蜘蛛来抓取。

  文章由http://www.csws1.com/html/9946/1440.html转载请保留链接

作者: pc865    时间: 2012-8-17 10:59
支持一下
作者: 绝不言离弃    时间: 2012-8-20 12:49
学习了,谢谢分享
推荐一个个比较喜欢的网站:www.zyysbj.info
作者: 1820447005    时间: 2012-8-22 15:17
原来是这个原理- - 现在才懂得ww.ball568.com
作者: 等你推一把    时间: 2012-8-22 15:49
无论是深度优先还是广度优先,只要给蜘蛛足够的时间,都能爬完整个网站
作者: zxsho    时间: 2012-8-22 17:01
如何吸引蜘蛛来抓取
作者: bbgg6    时间: 2012-8-22 19:28
标题: 北京xtyuty体育台
体育投入体育如同如同与体育特约如同与

作者: bbgg6    时间: 2012-8-22 19:29
学习了。我现在才知道哈哈哈哈
作者: fuwuqisafe    时间: 2012-8-23 10:40
做好网站内容 吸引蜘蛛前来
作者: 2656677522    时间: 2012-8-23 10:57
的确要相信自己
作者: ahty09642154    时间: 2012-8-23 11:27
看帖 回复 好习惯
作者: 最初    时间: 2012-9-25 17:11
A5发帖  回复  都需要审核了 .......................
站长朋友们,你们打算怎么活啊




欢迎光临 源码论坛,商业源码下载,尽在锦尚中国商业源码论坛 (https://bbs.52jscn.com/) Powered by Discuz! X3.3