源码论坛公告:本站是一个交流学习建站资源的社区论坛,旨在交流学习源码脚本等资源技术,欢迎大家投稿发言! 【点击此处将锦尚放在桌面

源码论坛,商业源码下载,尽在锦尚中国商业源码论坛

 找回密码
 会员注册

QQ登录

只需一步,快速开始

查看: 1054|回复: 1
打印 上一主题 下一主题

[交流] 怎样区分文章的伪原创?

[复制链接]

50

主题

51

帖子

0

金币

初级会员

Rank: 1

积分
36
QQ
跳转到指定楼层
1#
发表于 2012-5-29 12:21:38 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
  第一点、关于哪些词是蜘蛛不喜欢的呢?那么我们来看一下:总的来讲搜索引擎会过滤“的,了,呢,啊”之类的重复率非常之高的词,有人会问是为什么呢?很简单,因为这类词是对排名无帮助的无用词语。
  第二点、在谈到这里要谈伪原创百度与谷歌是怎么算法,和判定的?为什么有时候转换近义词无效。那么从这里开始就算是小戴个人的一点经验总结了。我们都知道目前在网络然市场上有一堆伪原创工具能够将词语伪原创比如将“电脑”伪原创为“计算机”等这样的近义词,那么有什么理由不相信强大的搜索引擎不会伪原创?所以肯定的,搜索引擎一定会近义词伪原创,当搜索引擎遇到“电脑”和“计算机”时,会将他们自动转换这里姑且假设为A,所以很多情况下的近义词伪原创不收录的原因就在这里。
  第三点、重点谈一下为什么有时候不仅近义词转换了并且连打乱句子与段落依然无效果呢。当搜索引擎过滤掉无用词,并将各类近义词转化为A,B,C,D后开始提取出这个页面最关键的几个词语A,C,E如果大家不太明白,那么(这里举个例子,实际可能提取的关键字不是ACE三个而是1个到几十个都是说不定的)。并且将这些词进行指纹记录。这样也就是说,近义词转换过的并且段落打乱过的文章和原文对于搜索引擎来说是会认为一模一样的。如果你们不明白,那就好好的琢磨一下,小戴的语言功底不太好,希望大家能够理解。
  第四点、这段更深层次解释为什么几篇文章段落重组的文章依然可能会被搜索引擎识别出。大家会可能觉得奇怪了?首先既然百度能够生成指纹自然也能解码指纹,段落重组的文章不过是重要关键字的增加或者减少,这样比如有两篇文章第一篇重要关键字是ABC,而第二篇是AB,那么搜索引擎就可能利用自己一个内部相似识别的算法,如果相差的百分数在某个值以下就放出文章并且给予权重,www.csws1.com如果相差的百分数高于某个值那么就会判断为重复文章从而不放出快照,也不给予权重。这也就是为什么几篇文章段落重组的文章依然可能会被搜索引擎识别出的原因。
  第五点、我要解释下为什么有些伪原创文章仍然可以被收录的很好。我上面的推理只是对于百度识别伪原创算法的大致框架,实际上谷歌百度对于识别伪原创的工作要更加庞大并且复杂的多,谷歌一年就会改变两百次算法足以看出算法的复杂性。为什么某些伪原创的文章依然可以被收录的很好。
  只有两个原因:
  1.由于被收录的网站自身权重相当高,比较那些大型的门户网站,哪怕不为原创照搬别人的文章还是百分之百会被收录给予权重。这没什么可商量的,你急也急不来的!
  2.搜索引擎绝对不可能完美到过滤所有伪原创,这是不可能的,就好像人工智能的图灵永远无法完美到拥有人类的情绪一样。大家明白了吗?对搜索引擎是如何判断伪原创有一定的了解了吗?
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 分享分享

27

主题

131

帖子

79

金币

初级会员

Rank: 1

积分
278
2#
发表于 2012-5-29 16:31:41 | 只看该作者
为了不扰乱会员对源码的测试,有问题咨询右侧客服不要直接回复,否则视为非法信息屏蔽会员ID!
不错,帮顶了。。。
您需要登录后才可以回帖 登录 | 会员注册

本版积分规则

锦尚中国源码论坛

聚合标签|锦尚中国,为中国网站设计添动力 ( 鲁ICP备09033200号 ) |网站地图

GMT+8, 2024-11-18 03:38 , Processed in 0.115427 second(s), 26 queries .

带宽由 锦尚数据 提供 专业的数据中心

© 锦尚中国源码论坛 52jscn Inc. 非法入侵必将受到法律制裁 法律顾问:IT法律网 & 褚福省律师 锦尚爱心 版权申诉 版权与免责声明