源码论坛,商业源码下载,尽在锦尚中国商业源码论坛

标题: 搜索引擎学习之网页预处理 [打印本页]

作者: yuuuue    时间: 2013-5-15 14:06
标题: 搜索引擎学习之网页预处理
  在抓取海量的网页之后,这距离面向用户提供检索服务还有一段很大的距离。用户看到搜索结果是搜索引擎在进行了预处理以及其他一系列复杂的程序执行后产生的,今天看了 搜索引擎原理部分的网页预处理,作下简单的记录,网页的预处理包含四个方面:关键词的提取、镜像页面或者转载页面的消除、链接分析以及网页重要程度的计算。
  一、关键词提取
  根据词典,将网页内容分成若干个词语,最终形成词语的集合p={关键词1、关键词2、关键词3…..关键词N},这中间会去除如的、得、在等没有实际意义的词,也成为停用词。
  二、重复转载页面的消除
  重复页面消耗了搜索引擎服务器资源,加重了服务器负担,对于用户而言,重复的结果对于用户而言并没有多大的实际意义,一个已经足够,因此在预处理的时候,也需要去除这些重复的页面。
  三、链接分析
  html中包含的指向其他文档链接的信息给出了网页之间的关系,而且对于判断网页内容具有重大的意义。因此链接发分析也很重要,他也是网页预处理中的重要部分。
  四、网站重要程度计算
  搜索引擎返回给用户是以一个结果的集合,而用户需要在最短的时间内找到他们最需要的东西,因此网站结果的排序就显得尤为重要,在预处理重要程序计算借宿后,讲最终得到结果排序的集合,也就是用户看到的结果。
  网页预处理中间涉及到的内容非常复杂,我会看看看完这本书,并做好笔记,有兴趣的朋友到时候可以看看。

资料收集:http://www.xunbiz.com/




欢迎光临 源码论坛,商业源码下载,尽在锦尚中国商业源码论坛 (https://bbs.52jscn.com/) Powered by Discuz! X3.3