源码论坛,商业源码下载,尽在锦尚中国商业源码论坛
标题:
搜索引擎抓取流程是如何运行的?
[打印本页]
作者:
忙碌的
时间:
2013-12-9 15:07
标题:
搜索引擎抓取流程是如何运行的?
搜索引擎抓取流程是如何运行的?
第一步:搜索引擎抓取互联网的网页。
我们把搜索引擎抓取网页的程序叫做“蜘蛛”或者“机器人”,“百度蜘蛛”和“google机器人”就是指的百度、谷歌的爬取程序。
搜索引擎蜘蛛会按照你的URL进行爬取。当搜索蜘蛛爬取一个网页的时候如果看到一个新的URL就会顺着这个URL爬下去。他会把爬取的内容返回到搜索引擎的索引数据库。
蜘蛛的主要作用就是爬取,蜘蛛爬取的是网站程序的代码,而不是我们大多数人认为的网页内容。
第二步:程序爬取的内容返回到索引数据库。
索引数据库对网页信息进行处理(包括网页所在URL、编码类型、页面内容包含的所有关键词、关键词位置、生成时间、大小、与其它网页的链接关系等)。网页分析之后,会对网页进行评价。如果是网上重复度太多的内容,索引数据库则舍弃这个网页。这就是平时我们遇到自己的文章被搜索引擎收录了很多,但是过一段时间后,有降低的原因之一。
每个被收录的网站都会在搜索引擎的索引数据库中有相应的储存,我们在可以直接看到的就是百度快照(谷歌cached)。搜索引擎是按照他的索引数据库上的信息对网站进行排序的。索引数据库中还包含每个网站的导入链接,导出链接等信息。
第三步:索引数据库中排序。
当用户输入一个关键词或者是一句话的时候。他会对用户输入的关键词进行分词(SE自己的分词算法)。然后在索引数据库中进行相应的关键词排序结果输出。
一般情况下搜索引擎会把获得的用户输入的关键词分为以下三种。
1、少于三个字的关键词。
2、常用词,比如:人名、地名等。
3、四个或者四个以上的普通组合关键词。
其中前两种都不需要进行分词,只有第三种需要分词。
用一句话概括一下就是:抓取— 分析、存储 — 排序输出 。本文由户外太阳伞厂家http://www.xiangyunyuju.com/products-detail.asp?cpid=84整理,转载以链接形式注明。
欢迎光临 源码论坛,商业源码下载,尽在锦尚中国商业源码论坛 (https://bbs.52jscn.com/)
Powered by Discuz! X3.3