源码论坛公告:本站是一个交流学习建站资源的社区论坛,旨在交流学习源码脚本等资源技术,欢迎大家投稿发言! 【点击此处将锦尚放在桌面

源码论坛,商业源码下载,尽在锦尚中国商业源码论坛

 找回密码
 会员注册

QQ登录

只需一步,快速开始

查看: 836|回复: 1
打印 上一主题 下一主题

[交流] 百度是如何保护原创的?谈百度原创那点事

[复制链接]

594

主题

593

帖子

794

金币

初级会员

Rank: 1

积分
2004
QQ
跳转到指定楼层
1#
发表于 2014-6-7 11:35:31 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
原创一直是大问题,往大了说,互联网生态环境日趋恶劣,采集伪原创低质量内容泛滥,严重挤占了优质原创资源的生存空间。导致互联网资源整体质量大幅下降,网民受损、优质站长受损、搜索引擎亦受损。往小了说,很多站长一直在进行原创建设,而得不到应有的保护。如何加大对站点原创的保护以及如何衡量原创是否能满足用户需求是一个艰巨的任务。为此,百度一直在进行原创保护和展现建设,因为这是用户的需求,尽管进展缓慢,但客观看来,确实有很大的进步。那么百度是如何保护原创的?下面谈谈百度原创那点事。
    本文内容主要分为以下五个大点:
  一、百度谈原创项目那点事;
  二、百度原创保护的进展;
  三、站长对于原创保护的错误认知;
  四、用户对于原创的态度;
  五、对于大型网站说保护原创更名副其实,对小站,说保护高质量内容更好。
  一、百度谈原创项目那点事
  1、搜索引擎为什么要重视原创
  采集泛滥化
  来自百度的一项调查显示,超过80%的新闻和资讯等都在被人工转载或机器采集,从传统媒体的报纸到娱-乐网站花边消息、从游戏攻略到产品评测,甚至高校图书馆发的催还通知都有站点在做机器采集。可以说,优质原创内容是被包围在采集的汪洋大海中之一粟,搜索引擎在海中淘粟,是既艰难又具有挑战性的事情。
  提高搜索用户体验
  数字化降低了传播成本,工具化降低了采集成本,机器采集行为混淆内容来源降低内容质量。采集过程中,出于无意或有意,导致采集网页内容残缺不全,格式错乱或附加垃圾等问题层出不穷,这已经严重影响了搜索结果的质量和用户体验。搜索引擎重视原创的根本原因是为了提高用户体验,这里讲的原创为优质原创内容。
  鼓励原创作者和文章
  转载和采集,分流了优质原创站点的流量,不再具属原创作者的名称,会直接影响到优质原创站长和作者的收益。长期看会影响原创者的积极性,不利于创新,不利于新的优质内容产生。鼓励优质原创,鼓励创新,给予原创站点和作者合理的流量,从而促进互联网内容的繁荣,理应是搜索引擎的一个重要任务。
  2、采集很狡诈,识别原创很艰难
  采集冒充原创,篡改关键信息
  当前,大量的网站批量采集原创内容后,用人工或机器的方法,篡改作者、发布时间和来源等关键信息,冒充原创。此类冒充原创是需要搜索引擎识别出来予以适当调整的。
  内容生成器,制造伪原创
  利用自动文章生成器等工具,“独创”一篇文章,然后安一个吸引眼球的title,现在的成本也低得很,而且一定具有独创性。然而,原创是要具有社会共识价值的,而不是胡乱制造一篇根本不通的垃圾就能算做有价值的优质原创内容。内容虽然独特,但是不具社会共识价值,此类伪原创是搜索引擎需要重点识别出来并予以打击的。
  网页差异化,结构化信息提取困难
  不同的站点结构化差异比较大,html标签的含义和分布也不同,因此提取关键信息如标题、作者和时间的难易程度差别也比较大。做到既提得全,又提得准,还要最及时,在当前的中文互联网规模下实属不易,这部分将需要搜索引擎与站长配合好才会更顺畅的运行,站长们如果用更清晰的结构告知搜索引擎网页的布局,将使搜索引擎高效地提取原创相关的信息。
  3、百度识别原创之路如何走?
  成立原创项目组,打持久战
  面对挑战,为了提高搜索引擎用户体验、为了使优质原创者原创网站得到应有的收益、为了推动中文互联网的前进,我们抽调大量人员组成原创项目组:技术、产品、运营、法务等等,这不是临时组织不是1个月2个月的项目,我们做好了打持久战的准备。
  原创识别“起源”算法
  互联网动辄上百亿、上千亿的网页,从中挖掘原创内容,可以说是大海捞针,千头万绪。我们的原创识别系统,在百度大数据的云计算平台上开展,能够快速实现对全部中文互联网网页的重复聚合和链接指向关系分析。首先,通过内容相似程度来聚合采集和原创,将相似网页聚合在一起作为原创识别的候选集合;其次,对原创候选集合,通过作者、发布时间、链接指向、用户评论、作者和站点的历史原创情况、转发轨迹等上百种因素来识别判断出原创网页;最后,通过价值分析系统判断该原创内容的价值高低进而适当的指导最终排序。
  目前,通过我们的实验以及真实线上数据,“起源”算法已经取得了一定的进展,在新闻、资讯等领域解决了绝大部分问题。当然,其他领域还有更多的原创问题等待“起源”去解决,我们坚定的走着。
  原创星火计划
  我们一直致力于原创内容的识别和排序算法调整,但在当前互联网环境下,快速识别原创解决原创问题确实面临着很大的挑战,计算数据规模庞大,面对的采集方式层出不穷,不同站点的建站方式和模版差异巨大,内容提取复杂等等问题。这些因素都会影响原创算法识别,甚至导致判断出错。这时候就需要百度和站长共同努力来维护互联网的生态环境,站长推荐原创内容,搜索引擎通过一定的判断后优待原创内容,共同推进生态的改善,鼓励原创,这就是“原创星火计划”,旨在快速解决当前面临的严重问题。另外,站长对原创内容的推荐,将应用于“起源”算法,进而帮助百度发现算法的不足,不断改进,用更加智能的识别算法自动识别原创内容。
  二、百度原创保护的进展
  原创星火计划一期和起源算法出来都有段时间了,目前主要覆盖的都是一些大型的新闻类站点,目前,原创星火计划取得了初步的效果,一期对部分重点原创新闻站点的原创内容在百度搜索结果中给予了原创标记、作者展示等等,并且在排序及流量上也取得了合理的提升。百度LEE也表示原创起源算法,也让这些优质的网站有了一个比较好的收益。
  1、原创星火计划上线前后的同期流量对比显示,原创url流量增长明显。
    2、原创星火计划上线后一段时间内原创url流量增长明显并逐渐趋于平稳。
    这个是一个小范围的数据,我们在来宏观的看看。2013年,中国低质网站泛滥,在低质网站中采集及作弊站点泛滥两种共占比高达80%。恶劣采集站占到40%之多,采集站、作弊站点、垃圾无价值站点在整个互联网资源环境中的比例越来越高,且有主导趋势,优质资源的空间在不断减小。优质站长受损,原创内容受到很大的阻碍。2014年,作弊站和采集站占比35%,有所遏制,采集站下降了16%,百度对于原创的宣传保护起到了很大的效果,然而无价值站点越来越多,在一定程度上也是“原创”惹的祸,后面细说。
    (2013低质网站分布情况)
    (2014低质网站分布情况)
  三、站长对于原创保护的错误认知
  1、原创内容不等于高质量内容
  网页主体内容是网页的价值所在,百度主要从以下角度评价网页内容质量:内容制作成本高低;内容是否有效、完整丰富;是否原创;信息是否真实有效;是否权威或投入较多专业的知识和经验;是否存在作弊行为。对于页面的主体内容价值,原创二字并没有怎么突出。
  什么内容算质量高?内容质量高:内容质量好的网页,花费了较多时间和精力编辑,倾注了大量经验和专业知识,内容清晰、有效、完整且丰富。例如:专业医疗网站发布的内容丰富的医疗专题页面、资深工程师发布的完整解决某个技术问题的专业文章、专业B2C网站上,完整有效的商品购买页、权威新闻站原创或经过编辑整理的热点新闻报道、经过网友认真编辑,内容丰富的百科词条。
  而对内容质量高的定义压根都没有原创这个标准。原创只是一个高质量内容的简单说法,或者说是高质量内容的更好一个层次。你的内容质量高又是原创那当然最好,但反过来就比较尴尬了,是原创但质量低,这是百度保护原创以来很多站长出现的一个问题,整天捣鼓原创,认为原创内容等于高质量内容,殊不知站点原创度在提升,但站点价值却在下降。
  前面也说了2014无价值站点越来越多,这其中不乏站长对于原创内容的错误认识,因为不是每一个人都能原创出高质量的内容。原创二字只是高质量网页内容的一个非必须特征,能在一定程度上反应网页内容的稀缺度,但原创并非一定稀缺,原创更不能代表高质量的内容的所有特性,这些一定要理解。
  2、原创内容不等于收录
  网站更新的内容是原创的就一定收录,这种认识其实是错误的,而且非常错误。总有很多人抱怨我的原创文章怎么不收录?也有的抱怨为什么别人复制我的就收录了?第一个问题其实很简单,为什么要收录你的?你自己写的这个老掉牙的东西,排版混乱、还要加载半天,读完都知道说的什么,这样的原创对搜索引擎对用户有什么价值?没有解决认为问题,只是在那自我陶醉,感觉自己文采多好。而且这跟你整体网站的权值,结构,历史表现,内外链等都有关。
  第二个问题为什么别人复制我的就收录了?就是别人把你的内容放到自己网页后,这个网页比你那个网页多了一些你没有的,也就是增加了附加价值,可能他的网站信誉度比你高,可能结构比较好,可能没那么多弹窗,可能用户可读性更强等等。内容质量高不高不由原创决定,搜索引擎收不收录那就更不是原创决定,至于百度为什么不收录你的网站,需要从多方面去思考,而不仅仅看是否原创。要真要说原创二字与收录的关系,那我只能说原创的可能重复度低,仅此而已,但这不是百度收录你的理由。
  3、原创内容不等于排名
  不管是百度搜索质量白皮书对网页的内容质量、网页浏览体验、可访问性进行衡量,然后排序;还是百度搜索研发部在谈互联网页面价值时指出的受众群大小、页面稀缺程度、页面质量高低、页面时效性四个排序标准;或者是站长圈里谈到的页面基础得分、站内得分、站外得分、用户得分这四个网页的综合排名得分因素。我们可以发现页面内容质量一直只是众多百度网页排名因素中的一个,而原创又只是页面内容质量构成的一小部分。
  经常会听到有人说,“我的原创文章怎么没有排名?”、“为什么我坚持原创,排名却不好”。事实上很多人都有这个问题,有时候我也有。做好优质原创内容确实是一个提高网站排名持续有效的方法,但这只是一个方法,哪怕是你一直持续更新优质原创,也只是说理论上排名会好起来,没有哪一个搜索引擎曾公告:只要你有优质原创内容,我就给你好排名。影响排名的因素非常多,尽管内容是做网站的重中之重,但你不能保证你的网站不会有其他因素影响你的排名,比如结构,比如加载速度,甚至被黑。
  网站原创这一个价值大放异彩不一定就能在页面排序大战中脱颖而出,需要综合各方面因素,我想这一点大家都明白。况且我刚刚一直假设的是优质原创,持续的高质量内容,如果仅仅只是你认为的原创,按照上面说的原创内容不等于高质量内容,是不是更加悲剧了呢?
    4、百度直接识别发布时间确定原创不就行了吗?
  很多人可能说:识别原创还不容易,看谁先发布的,识别发布时间不就行了吗?百度就是照顾大网站,识别原创都是假的。我只能说,你把原创识别判断想得太容易了。百度Lee也说过,发布时间实际上早就已经识别,单纯靠发布时间是无法判断原创性的。
  前面说了百度原创识别系统在百度大数据的云计算平台上开展,首先,通过内容相似程度来聚合采集和原创,将相似网页聚合在一起作为原创识别的候选集合;其次,对原创候选集合,通过作者、发布时间、链接指向、用户评论、作者和站点的历史原创情况、转发轨迹等上百种因素来识别判断出原创网页。发布时间时间仅仅是这上百种因素中的一个,想直接通过识别发布时间确定原创,你想得太容易了。
  互联网动辄上百亿、上千亿的网页,从中挖掘原创内容,可以说是大海捞针,而且识别原创过程非常复杂,更是难上加难。百度确实一直致力于原创建设,不是为你,而是为了百度自己。但解决原创问题确实面临着很大的挑战,计算数据规模庞大,面对的采集方式层出不穷,不同站点的建站方式和模版差异巨大,内容提取复杂等等问题都会影响原创算法识别,甚至导致判断出错。所以才会出现很多原创假象,这也是没办法的,对原创的保护确实是一个非常艰巨的问题,谷歌研究原创这么多年,依旧是勉勉强强,原创保护仍是个长久问题。
  说完站长对于原创的认识,再说说用户的态度,都是我们在争论原创,有没有想过是创给谁看的呢?还不是给我们的用户看,那他们是怎么想的呢?
  四、用户对于原创的态度
  说一句不怎么好听的话,现在的大部分网站,包括加入百度星火原创计划的网站,有多少是纯原创呢?大多都是由原创、投稿、编辑、精华文章转载等组成,也不都是原创。相反要说纯原创,我看它们还不如一些苦哈哈的小站站长,每天辛辛苦苦在那搞创作。但为什么用户要看他的不看你的?
  用户在乎什么?用户在看内容时会在乎原创吗,还是你觉得用户在乎?用户在乎的应该是内容对他有没有价值?有用没有用?而不是谁提供的这个内容,这个世界上的人最关心的都是自己,用户找内容最关心的同样是内容给自己带来的利益,至于原创者是谁恐怕只有原作者最关心。
  你需要查一个东西,你去找内容,找到了,而且你非常满意,这就够了。至于这个内容是不是原创,你会在意吗?我不会,我会觉得这个网站不错,内容非常好,收藏一下,下次继续来。有时候看到了原作者以及某些文章的原文出处,我也不会再去点,因为这里已经满足我的需求了,而且这里的速度、排版、结构都很好,我何必去找原内容。用户是懒的,没人整天在那找作者,他们找的是有价值内容,这就是为什么现在越牛的网站越不吝啬留原创地址,因为既然原作者在乎,他留就是了,反正他和他的用户都不在乎。
    所以说整天争原创有什么意义了呢,是你的原创用户就得看?用户不是在找原创,他是在找有价值能解决他现在问题的内容。打个比方,一个用户在找关于京东上市的信息,结果在新浪新闻找到了,非常好,但文章下面写着内容来自京东论坛,这个用户会不会说:我X,不是原创,原来是来自京东的,垃圾,再也不看新浪新闻了?我想不会,作为用户,只要有价值,原创who care?
  五、对于大型网站说保护原创更名副其实,对小站,说保护高质量内容更好
  在我看来,对于大型网站说保护原创更名副其实,对小站说保护高质量内容更好,为什么这么说,因为百度强调原创是要具有社会共识价值的,而不是胡乱制造一篇根本不通的垃圾就能算做有价值的优质原创内容。对于大型网站,百度知根知底,信誉度高,有权威,用户群体大,历史表现好,所以大多原创展现,原创起源算法都发生在大型网站上,因为技术跟不上,所以部分网站会提前保护,就像加入星火原创计划的都是大型网站,因为可信度高,成功率高。
  而对于小型网站,我觉得更多的是鼓励站长创建优质的内容,因为想要被保护,首先就必须有优质的内容做支撑,不然何谈百度需要的原创。细心的朋友在前面可能发现,百度每次提到原创都会加上低质、高质量等词,比如“原创高质量内容”、“伪原创低质量内容”、“高质原创”等。为什么每次说原创都要带上这些词?因为百度也怕误导站长,也怕站长像前面说的只看到原创二字。这不是百度的目的,百度重视保护原创的根本原因是为了提高用户体验,原创不是目的,希望小站创建优质内容才是目的,所以百度讲的原创也一直是优质原创内容。
  鼓励小站原创,保护网站原创到不如说是保护高质量内容,杜绝垃圾采集内容,这么说可能更好,因为高质量内容还有个谱,但是原创以及原创判断真的是一个没谱的事。
  写在最后
  原创保护肯定会是百度一个长期的计划,不可能一步到位,所以站长们一定要心态摆正,不要整天盲目原创+抱怨,用户真正要的不是原创,要的是有价值的内容,百度也只是借保护原创来提升互联网高质量内容,原创只是一个措施,不是结果,不是最终的目的,百度保护原创是为了维持互联网生态、鼓励站长。站长们做原创是为了能给用户有价值独特的内容,这些才是结果。
  这其中就有一个伪原创的问题,很多站长不屑,认为这是抄袭。其实从用户的需求出发,挖掘对于用户有价值的内容是很多人都在做的,而且会经常挖掘别人的优质内容,这个东西对我的用户很有价值,为什么不用?别人用了你就不用了,那这个互联网的资源对你来说恐怕没多少了。你可以称之为伪原创,可以称之为整合,也可以叫它重新包装,但这不是抄袭,不是直接引用别人的就完事了,重点要比别人做得更好,更具有竞争性。成功借用别人的成果不是让你抄袭,而是放大它的优点,弥补它的缺点,结合自己的优势,让内容更加完整更有价值。如果只是长期挪用别人的内容,做得还没有别人好,这才叫做抄袭。
  对于站长而言,不要太多的考虑什么原创不原创,只需要根据用户需求给他们有价值的内容就行了,原创不能说明什么,原创不一定就好。就拿百度来说,百度知道、百度百科、百度文库、百度网盘等有多少是原创的内容?很多都不是原创,那为什么流量会那么高呢?因为这些平台的这些内容满足了用户的需求。在内容建设的时候,内容质量度和可读性都是网站运营的关键因素,不要一味的在那琢磨所谓的原创而忽视了用户,忽视了内容本身的质量。



评分

参与人数 1金币 +1 收起 理由
爱上刘亦菲 + 1 非常不错,支持一下锦尚中国源码论坛

查看全部评分

分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 分享分享

129

主题

2631

帖子

27

金币

初级会员

Rank: 1

积分
2812
QQ
2#
发表于 2014-6-7 14:52:54 | 只看该作者
为了不扰乱会员对源码的测试,有问题咨询右侧客服不要直接回复,否则视为非法信息屏蔽会员ID!
苫布   
施工帐篷      
篷布  
篷房
您需要登录后才可以回帖 登录 | 会员注册

本版积分规则

锦尚中国源码论坛

聚合标签|锦尚中国,为中国网站设计添动力 ( 鲁ICP备09033200号 ) |网站地图

GMT+8, 2024-11-16 02:50 , Processed in 0.111855 second(s), 27 queries .

带宽由 锦尚数据 提供 专业的数据中心

© 锦尚中国源码论坛 52jscn Inc. 非法入侵必将受到法律制裁 法律顾问:IT法律网 & 褚福省律师 锦尚爱心 版权申诉 版权与免责声明