源码论坛公告:本站是一个交流学习建站资源的社区论坛,旨在交流学习源码脚本等资源技术,欢迎大家投稿发言! 【点击此处将锦尚放在桌面

源码论坛,商业源码下载,尽在锦尚中国商业源码论坛

 找回密码
 会员注册

QQ登录

只需一步,快速开始

查看: 614|回复: 0
打印 上一主题 下一主题

[交流] 搜索引擎学习之网页预处理

[复制链接]

15

主题

15

帖子

0

金币

初级会员

Rank: 1

积分
11
QQ
跳转到指定楼层
1#
发表于 2013-5-15 14:06:10 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
  在抓取海量的网页之后,这距离面向用户提供检索服务还有一段很大的距离。用户看到搜索结果是搜索引擎在进行了预处理以及其他一系列复杂的程序执行后产生的,今天看了 搜索引擎原理部分的网页预处理,作下简单的记录,网页的预处理包含四个方面:关键词的提取、镜像页面或者转载页面的消除、链接分析以及网页重要程度的计算。
  一、关键词提取
  根据词典,将网页内容分成若干个词语,最终形成词语的集合p={关键词1、关键词2、关键词3…..关键词N},这中间会去除如的、得、在等没有实际意义的词,也成为停用词。
  二、重复转载页面的消除
  重复页面消耗了搜索引擎服务器资源,加重了服务器负担,对于用户而言,重复的结果对于用户而言并没有多大的实际意义,一个已经足够,因此在预处理的时候,也需要去除这些重复的页面。
  三、链接分析
  html中包含的指向其他文档链接的信息给出了网页之间的关系,而且对于判断网页内容具有重大的意义。因此链接发分析也很重要,他也是网页预处理中的重要部分。
  四、网站重要程度计算
  搜索引擎返回给用户是以一个结果的集合,而用户需要在最短的时间内找到他们最需要的东西,因此网站结果的排序就显得尤为重要,在预处理重要程序计算借宿后,讲最终得到结果排序的集合,也就是用户看到的结果。
  网页预处理中间涉及到的内容非常复杂,我会看看看完这本书,并做好笔记,有兴趣的朋友到时候可以看看。

资料收集:http://www.xunbiz.com/
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 分享分享
您需要登录后才可以回帖 登录 | 会员注册

本版积分规则

锦尚中国源码论坛

聚合标签|锦尚中国,为中国网站设计添动力 ( 鲁ICP备09033200号 ) |网站地图

GMT+8, 2024-11-17 22:47 , Processed in 0.153411 second(s), 26 queries .

带宽由 锦尚数据 提供 专业的数据中心

© 锦尚中国源码论坛 52jscn Inc. 非法入侵必将受到法律制裁 法律顾问:IT法律网 & 褚福省律师 锦尚爱心 版权申诉 版权与免责声明