源码论坛公告:本站是一个交流学习建站资源的社区论坛,旨在交流学习源码脚本等资源技术,欢迎大家投稿发言! 【点击此处将锦尚放在桌面

源码论坛,商业源码下载,尽在锦尚中国商业源码论坛

 找回密码
 会员注册

QQ登录

只需一步,快速开始

查看: 761|回复: 1
打印 上一主题 下一主题

[交流] 浅谈SEO中关头词分词手艺

[复制链接]

594

主题

593

帖子

794

金币

初级会员

Rank: 1

积分
2004
QQ
跳转到指定楼层
1#
发表于 2014-7-3 12:01:35 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

      1、基于字符串匹配的分词体例    SEO搜索引擎在接管用户搜索的时辰第一个会判定用户搜索的“词”跟数据库里面的“词”是否匹配,匹配度若何来进行扫描
按照输入的“关头词”或是“句子”分歧长度优先匹配的情形,可以分为最年夜长配和最小短配
向最大匹配法左到右的标的目的%A 例子:策恩“世界名鞋客”推泛博赛。
正向最大切分出的环节词是:策恩、世界名鞋淘宝客、推恢弘赛上图了,巨匠百度引擎一下,然后查看快照即可%A 向最大匹配法右到左的倾向个跟第一点是一样的分词体式格局,只是枢纽词的前后挨次换过来,在搜索引擎数据库查询获得的功效是一样的。
码切分每一句中切出的词数最小%A 例子:策恩“世界名鞋淘宝客”推广大赛
最少切分出来的词是:策恩、世界、名鞋、淘宝客、推广、大赛
向最大匹配法行由左到右、由右到左两次扫描
2、基于理解的分词方法
这种分词方法是经由过程让计较机模拟人对句子的理解,达到识别词的下场。其根基思惟就是在分词的同时进行句法、语义剖析,操作句法信息和语义信息来措置歧义现象。这种方法一向匹敌着持久伪原创的做法,在09年一般的换换同义词,近义词的伪原创百度会收录,到了2010年伪原创的幅度需要做到更大才可以有用,在今年的六月底,百度的一次大更新事后,良多同窗发现原本的采集的站,或是伪原创力度不大的上网页内容被百度大量的放出来,不在收录,声名百度这一分词手艺方法越来越成熟,越来越完美了。伪原创也是越来越难了。
3、基于统计的分词方法
从形式上看,词是不变的字的组合,是以在上下文中,相邻的字同时呈现的次数越多,就越有可能组成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可托度。搜索引擎通过这一方法在“下拉框”或是“相关搜索”中可以充实提现出来。比来几年各人发现许多收集公司有一项营业是【刷百度相关要害词】,当用户输入某个关键词的时刻,我们可以做到指定在百度下拉框泛起自己想要的关键词,哄骗的就是这个基于统h计的分词事理。



分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 分享分享

129

主题

2631

帖子

27

金币

初级会员

Rank: 1

积分
2812
QQ
2#
发表于 2014-7-3 16:02:40 | 只看该作者
为了不扰乱会员对源码的测试,有问题咨询右侧客服不要直接回复,否则视为非法信息屏蔽会员ID!
充气帐篷   
帐篷   
户外充气帐篷
停车棚
您需要登录后才可以回帖 登录 | 会员注册

本版积分规则

锦尚中国源码论坛

聚合标签|锦尚中国,为中国网站设计添动力 ( 鲁ICP备09033200号 ) |网站地图

GMT+8, 2024-11-15 22:22 , Processed in 0.157738 second(s), 26 queries .

带宽由 锦尚数据 提供 专业的数据中心

© 锦尚中国源码论坛 52jscn Inc. 非法入侵必将受到法律制裁 法律顾问:IT法律网 & 褚福省律师 锦尚爱心 版权申诉 版权与免责声明