源码论坛公告:本站是一个交流学习建站资源的社区论坛,旨在交流学习源码脚本等资源技术,欢迎大家投稿发言! 【点击此处将锦尚放在桌面

源码论坛,商业源码下载,尽在锦尚中国商业源码论坛

 找回密码
 会员注册

QQ登录

只需一步,快速开始

查看: 582|回复: 0
打印 上一主题 下一主题

[交流] 索引文字和中文分词

[复制链接]

238

主题

237

帖子

75

金币

初级会员

Rank: 1

积分
316
QQ
跳转到指定楼层
1#
发表于 2013-12-15 16:36:45 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
  搜索引擎抓取了大量的原始页面后并不能直接用来排名,用户搜索的时候开程序来计算排名无法在1秒2秒内算出结果,是以抓取了之后必须先预处理这样来为存库之后的查询做准备。首先进行的第一步就是提取文字,搜索引擎发展至今还是主要以文字为主,当一大串代码的时候,搜索引擎一般会抓取Mete标签中的文字,图片ALT文字,锚文字,网页中的文字等。中文分词是针对中文特有的一种分词方式,英文来说一般都有分隔符,搜索引擎可以直接根据分隔符来判断词。而中文一般一句话都是连接在一起的是以需要分词。

  比如SEO基础服务这个词,就有可能被分为SEO、基础、服务这三个词。分词有两种基于词典的方式讲一段汉字吧按照事先准备好的词典按照扫描长度混合匹配最后出来最大的匹配度,而统计的方法则是在于根据几个相邻次在这个互联网上出现的次数比例来分词。通过谷歌搜索搜索引擎优化查看快照会发现谷歌会把词分成 搜索 殷勤 优化 三个词,而百度则会显示为搜索引擎优化显然百度的出现更为合理。http://zybdf.ycnews.cn/syzybdf/
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 分享分享
您需要登录后才可以回帖 登录 | 会员注册

本版积分规则

锦尚中国源码论坛

聚合标签|锦尚中国,为中国网站设计添动力 ( 鲁ICP备09033200号 ) |网站地图

GMT+8, 2025-2-8 12:10 , Processed in 0.097960 second(s), 26 queries .

带宽由 锦尚数据 提供 专业的数据中心

© 锦尚中国源码论坛 52jscn Inc. 非法入侵必将受到法律制裁 法律顾问:IT法律网 & 褚福省律师 锦尚爱心 版权申诉 版权与免责声明