源码论坛公告:本站是一个交流学习建站资源的社区论坛,旨在交流学习源码脚本等资源技术,欢迎大家投稿发言! 【点击此处将锦尚放在桌面

源码论坛,商业源码下载,尽在锦尚中国商业源码论坛

 找回密码
 会员注册

QQ登录

只需一步,快速开始

查看: 560|回复: 0
打印 上一主题 下一主题

[交流] 什么是搜索引擎的“去重”

[复制链接]

238

主题

237

帖子

75

金币

初级会员

Rank: 1

积分
316
QQ
跳转到指定楼层
1#
发表于 2013-12-15 16:30:53 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
  同一篇文章在一个网站中多次出现是搜索引擎不喜欢的,同一片文章在很多网站上出现也是搜索引擎厌恶的,特别是当用户搜索的时候前几页都是这同样一篇文章对于搜素引擎来认为他是不利于用户体验的。搜索引擎希望的是一篇文章只出现一次。是以搜素引擎识别重复文章和删除重复文章就叫做去重。

  去重的方法是根据关键词指纹来计算,选择一个最具有代表意义的关键词然后再分词和去停止词去噪之后在选择10个特征这样就可以到达一个非常高的准确性,特征再多了不但浪费计算并且没有意义,简单的加一些的地得已经让我们知道这样所谓的伪原创对付搜索引擎木有任何的意义。搜索引擎的去重不会只是淡淡的一个页面或者一个网站,而是在整个互联网都在运作,是以所谓的调换段落,和用几篇文章拼成一篇文章的做法并不能让搜索引擎认为这是原创文章。http://zybdf.ycnews.cn/syzybdf
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 分享分享
您需要登录后才可以回帖 登录 | 会员注册

本版积分规则

锦尚中国源码论坛

聚合标签|锦尚中国,为中国网站设计添动力 ( 鲁ICP备09033200号 ) |网站地图

GMT+8, 2025-2-8 09:55 , Processed in 0.123622 second(s), 26 queries .

带宽由 锦尚数据 提供 专业的数据中心

© 锦尚中国源码论坛 52jscn Inc. 非法入侵必将受到法律制裁 法律顾问:IT法律网 & 褚福省律师 锦尚爱心 版权申诉 版权与免责声明