源码论坛,商业源码下载,尽在锦尚中国商业源码论坛

标题: SEO基础知识：搜索引擎是基于什么原理实现的？ [打印本页]

作者: tina001 时间: 2012-1-11 10:02
标题: SEO基础知识：搜索引擎是基于什么原理实现的？
现在随着互联网的快速发展，与之相关的行业也越来越流行，SEO就属其中一类吧，很多年轻人开始投身于这个行业。在百度里输入SEO，我们不难发现很多关于SEO外链、更新之类的经验分享的，

但我们很多SEOer并没有很多真正的理解SEO，外链、更新固然重要，但学习和理解搜索引擎的基本架构和原理，也是非常有必要的，通用的搜索引擎，一般包含了以下一些功能模块：

1、蜘蛛，即Spider，类似浏览器的程序，专门用来下载web页面

2、爬虫，即Crawler，用来自动跟踪所有页面中的链接

2、索引，即Indexer，专门用来分析蜘蛛和爬虫下载下来的web页面

4、结果引擎，从数据库中抽取出搜索结果

5、数据库，存储下载的页面信息和处理过的页面信息

6，Web服务器，用来处理用户的搜索交互请求的web服务器

不同的搜索引擎实现，某些地方可能有一定的差别，比如，蜘蛛+爬出+索引的组合功能就是通过一个单一的程序来实现的，它一边下载页面，一边分析出结果，并利用已有的链接来发现新的资源。当然，这些功能都是所有搜索引擎所固有的，所体现的SEO原则都是类似的。

下面对搜索引擎的功能模块进行简单阐述。

蜘蛛：这个功能模块专门用来下载页面，类似浏览器的功能。它们之间的区别在于，浏览器展现给用户的是各种形式的信息，包括文本的信息，图像的信息，视频的信息，等等；而对于蜘蛛来说，并没有一些可视化的组件，而是直接跟基本的html源代码打交道。大家可能都知道，一个标准的web浏览器都是带有html源文件查看的功能的。

爬虫：该功能模块专门用户发现每个页面中的所有链接。它的任务是，通过评估找到的链接，或者已定义的地址，来决定蜘蛛去哪里。爬虫跟踪这些已经找到的链接，并且尝试去发现对于搜索引擎来说不知道的一些文档。

索引：此功能组件负责解析每个页面，然后分析各种页面的元素，例如，文本内容，头部内容，结构化或者自定义过的特色部分，特殊的html标签，等等。

结果引擎：结果引擎来进行页面的排名工作。它决定着哪些页面是最匹配用户的搜索请求的，并且按照何种有效而合理的次序来显示这些结果。这是根据搜索引擎的排名算法而决定的。它追寻的是这样一种理念，页面排名是有价值的，基于用户兴趣驱动的，所以对于SEO工作者来说这个是最感兴趣的，SEOer们的目标就是如何有效提高所关心的网站的页面排名。

至于数据库和Web服务器，这里就不多说了，大家如果有兴趣可以去SEOTcs平台查看，以上只是笔者的个人浅谈，如有什么建议或者好的看法可以留言，嘿嘿，一起讨论，共同进步嘛！！

作者: hubeidajuren 时间: 2012-1-11 10:48
楼主说得有道理

作者: onlykyou 时间: 2012-1-14 20:44
穿别人的鞋，走自己的路，让他们找去吧。

欢迎光临源码论坛,商业源码下载,尽在锦尚中国商业源码论坛 (https://bbs.52jscn.com/)