源码论坛,商业源码下载,尽在锦尚中国商业源码论坛

标题: 搜索引擎抓取流程是如何运行的？ [打印本页]

作者: 忙碌的 时间: 2013-12-9 15:07
标题: 搜索引擎抓取流程是如何运行的？
搜索引擎抓取流程是如何运行的？

第一步：搜索引擎抓取互联网的网页。
我们把搜索引擎抓取网页的程序叫做“蜘蛛”或者“机器人”，“百度蜘蛛”和“google机器人”就是指的百度、谷歌的爬取程序。
搜索引擎蜘蛛会按照你的URL进行爬取。当搜索蜘蛛爬取一个网页的时候如果看到一个新的URL就会顺着这个URL爬下去。他会把爬取的内容返回到搜索引擎的索引数据库。
蜘蛛的主要作用就是爬取，蜘蛛爬取的是网站程序的代码，而不是我们大多数人认为的网页内容。
第二步：程序爬取的内容返回到索引数据库。
索引数据库对网页信息进行处理（包括网页所在URL、编码类型、页面内容包含的所有关键词、关键词位置、生成时间、大小、与其它网页的链接关系等）。网页分析之后，会对网页进行评价。如果是网上重复度太多的内容，索引数据库则舍弃这个网页。这就是平时我们遇到自己的文章被搜索引擎收录了很多，但是过一段时间后，有降低的原因之一。
每个被收录的网站都会在搜索引擎的索引数据库中有相应的储存，我们在可以直接看到的就是百度快照（谷歌cached）。搜索引擎是按照他的索引数据库上的信息对网站进行排序的。索引数据库中还包含每个网站的导入链接，导出链接等信息。
第三步：索引数据库中排序。
当用户输入一个关键词或者是一句话的时候。他会对用户输入的关键词进行分词（SE自己的分词算法）。然后在索引数据库中进行相应的关键词排序结果输出。
一般情况下搜索引擎会把获得的用户输入的关键词分为以下三种。
1、少于三个字的关键词。
2、常用词，比如：人名、地名等。
3、四个或者四个以上的普通组合关键词。
其中前两种都不需要进行分词，只有第三种需要分词。
用一句话概括一下就是：抓取— 分析、存储 — 排序输出。本文由户外太阳伞厂家http://www.xiangyunyuju.com/products-detail.asp?cpid=84整理，转载以链接形式注明。

欢迎光临源码论坛,商业源码下载,尽在锦尚中国商业源码论坛 (https://bbs.52jscn.com/)