源码论坛公告:本站是一个交流学习建站资源的社区论坛,旨在交流学习源码脚本等资源技术,欢迎大家投稿发言! 【点击此处将锦尚放在桌面

源码论坛,商业源码下载,尽在锦尚中国商业源码论坛

 找回密码
 会员注册

QQ登录

只需一步,快速开始

查看: 553|回复: 0
打印 上一主题 下一主题

[交流] 搜索引擎预处理规则

[复制链接]

238

主题

237

帖子

75

金币

初级会员

Rank: 1

积分
316
QQ
跳转到指定楼层
1#
发表于 2013-12-15 16:34:00 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
  预处理中必不可少的一个环节是去停止词,不管是中文还是英文中总是有一些词在文章中必须出现但是又没有意义的存在,比如中文文章中经常出现的“的”、“地”、“得”这些助词,又或者一些感叹词比如嘿、哈、哇,还有一些副词和介词的比如,从而、以、却。

  英文文章中经常出现的这类词有 the、a、an、to、of这样的词统一被我们称之为停止词,搜索引擎在爬行文章的时候第一步就是去掉这些词,获得文章中德精髓。一个是减少数据存储,另外可以让数据更加精准。处理完了这些进行的下一步就是消除噪声,我们大部分网站中总有那么些无用的内容,比如标识声明,导航,广告之类的内容这类对用户搜索起来没有任何的意义并且只能干扰网站主题内容的提取,在经历消除噪声后剩下的就是页面内的真正内容。http://zybdf.ycnews.cn/syzybdf
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 分享分享
您需要登录后才可以回帖 登录 | 会员注册

本版积分规则

锦尚中国源码论坛

聚合标签|锦尚中国,为中国网站设计添动力 ( 鲁ICP备09033200号 ) |网站地图

GMT+8, 2025-2-8 12:16 , Processed in 0.101705 second(s), 26 queries .

带宽由 锦尚数据 提供 专业的数据中心

© 锦尚中国源码论坛 52jscn Inc. 非法入侵必将受到法律制裁 法律顾问:IT法律网 & 褚福省律师 锦尚爱心 版权申诉 版权与免责声明