源码论坛,商业源码下载,尽在锦尚中国商业源码论坛

标题: 详解搜索引擎的工作原理 [打印本页]

作者: iway63 时间: 2012-2-21 18:19
标题: 详解搜索引擎的工作原理
一名合格的seo工程师，一定会了解搜索引擎的工作原理，对于百度和谷歌的原理几乎差不多，只是其中有些细节不同，比如分词技术等，因为国内搜索一般都是百度，所以我们以后的课程都会针对于百度，当然，基础类的只是同样适用于谷歌！
搜索引擎的工作原理其实很简单，首先搜索引擎大致分为4个部分，第一个部分就是蜘蛛爬虫，第二个部分就是数据分析系统，第三个部分是索引系统，第四个就是查询系统咯，当然这只是基本的4个部分！
下边我们来讲搜索引擎的工作流程：
什么是搜索引擎蜘蛛，什么是爬虫程序？
搜索引擎蜘蛛程序，其实就是搜索引擎的一个自动应用程序，它的作用是什么呢？其实很简单，就是在互联网中浏览信息，然后把这些信息都抓取到搜索引擎的服务器上，然后建立索引库等等，我们可以把搜索引擎蜘蛛当做一个用户，然后这个用户来访问我们的网站，然后在把我们网站的内容保存到自己的电脑上！比较好理解。
搜索引擎蜘蛛是怎样抓取网页的呢？
发现某一个链接 → 下载这一个网页 → 加入到临时库 → 提取网页中的链接 → 在下载网页 → 循环
首先搜索引擎的蜘蛛需要去发现链接，至于怎么发现就简单了，就是通过链接链接链接。搜索引擎蜘蛛在发现了这个链接后会把这个网页下载下来并且存入到临时的库中，当然在同时，会提取这个页面所有的链接，然后就是循环。
搜索引擎蜘蛛几乎是24小时不休息的（在此为它感到悲剧，没有假期。哈哈。）那么蜘蛛下载回来的网页怎么办呢？这就需要到了第二个系统，也就是搜索引擎的分析系统。
搜索引擎的蜘蛛抓取网页有规律吗？
这个问题问的好，那么搜索引擎蜘蛛抓取网页到底有规律吗？答案是有！
如果蜘蛛胡乱的去抓取网页，那么就费死劲了，互联网上的网页，每天都增加那么那么那么多，蜘蛛怎么可以抓取的过来呢？所以说，蜘蛛抓取网页也是有规律的！
蜘蛛抓取网页策略1：深度优先
什么是深度优先？简单的说，就是搜索引擎蜘蛛在一个页面发现一个连接然后顺着这个连接爬下去，然后在下一个页面又发现一个连接，然后就又爬下去并且全部抓取，这就是深度优先抓取策略。

欢迎光临源码论坛,商业源码下载,尽在锦尚中国商业源码论坛 (https://bbs.52jscn.com/)