源码论坛公告:本站是一个交流学习建站资源的社区论坛,旨在交流学习源码脚本等资源技术,欢迎大家投稿发言! 【点击此处将锦尚放在桌面

源码论坛,商业源码下载,尽在锦尚中国商业源码论坛

 找回密码
 会员注册

QQ登录

只需一步,快速开始

查看: 922|回复: 2
打印 上一主题 下一主题

[转载] 百度蜘蛛的抓取和爬行原理

[复制链接]

18

主题

657

帖子

204

金币

初级会员

Rank: 1

积分
1169
跳转到指定楼层
1#
发表于 2012-8-17 11:03:22 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
相信所有SEO(搜索引擎优化)(搜索引擎优化)er都知道搜索引擎用户来爬行和访问页面的程序被称为蜘蛛(spider)或者我们也可以称之为机器人(bot)。搜索引擎蜘蛛访问网站页面时就好比我们普通用户使用的浏览器。蜘蛛程序发出页面访问请求后,服务器返回到HTML代码,蜘蛛程序把收到的代码存入到页面数据库。
    为了抓取网上尽可能多的页面。搜索引擎蜘蛛会跟踪页面上的链接,从一个页面爬到下一个页面,就好像蜘蛛在蜘蛛网上爬行那样,这也是搜索引擎蜘蛛名称的由来。
   最简单的爬行策略分为两种,一个是深度优先,另一个是广度优先。
   所谓深度优先,指的是蜘蛛沿着发现的一个链接一直向前爬行,知道前面再也没有其他链接,在返回到第一个页面,沿着另一个链接再一直往前爬行。
    广度优先是指蜘蛛在一个页面发现多个链接时,不是顺着一个链接一直先前爬行,而是把所有页面的第一层链接全部爬完,然后沿着第二层页面发现的链接爬向第三层页面。
    从理论上讲,无论是深度优先还是广度优先,只要给蜘蛛足够的时间,都能爬完整个网站。不过在实际工作中,蜘蛛的宽带有限,不可能爬完所有页面。实际上最大的搜索引擎也只是爬行和收录的互联网的一小部分。由此可见,理论上蜘蛛能爬行和抓取所有页面,但实际上不能。SEO(搜索引擎优化)(搜索引擎优化)er要想让自己更多的页面被收录,就要想方设法的吸引蜘蛛来抓取。

  文章由http://www.csws1.com/html/9946/1440.html转载请保留链接
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 分享分享

4

主题

109

帖子

871

金币

初级会员

纵鹏网

Rank: 1

积分
1835
QQ
2#
发表于 2012-8-17 11:14:59 | 只看该作者
为了不扰乱会员对源码的测试,有问题咨询右侧客服不要直接回复,否则视为非法信息屏蔽会员ID!
高深

11

主题

887

帖子

0

金币

初级会员

Rank: 1

积分
627
QQ
3#
发表于 2012-9-25 17:14:31 | 只看该作者
为了不扰乱会员对源码的测试,有问题咨询右侧客服不要直接回复,否则视为非法信息屏蔽会员ID!
A5发帖  回复  都需要审核了 .......................
站长朋友们,你们打算怎么活啊
手机号码定位、[url=http://www.xinmaoshun.com/kaifangjiluchaxun
您需要登录后才可以回帖 登录 | 会员注册

本版积分规则

锦尚中国源码论坛

聚合标签|锦尚中国,为中国网站设计添动力 ( 鲁ICP备09033200号 ) |网站地图

GMT+8, 2024-11-23 07:03 , Processed in 0.155859 second(s), 26 queries .

带宽由 锦尚数据 提供 专业的数据中心

© 锦尚中国源码论坛 52jscn Inc. 非法入侵必将受到法律制裁 法律顾问:IT法律网 & 褚福省律师 锦尚爱心 版权申诉 版权与免责声明