源码论坛公告:本站是一个交流学习建站资源的社区论坛,旨在交流学习源码脚本等资源技术,欢迎大家投稿发言! 【点击此处将锦尚放在桌面

源码论坛,商业源码下载,尽在锦尚中国商业源码论坛

 找回密码
 会员注册

QQ登录

只需一步,快速开始

查看: 706|回复: 0
打印 上一主题 下一主题

[交流] 浅谈伪原创的方法以及防止被采集的方法

[复制链接]

320

主题

327

帖子

865

金币

初级会员

Rank: 1

积分
1966
QQ
跳转到指定楼层
1#
发表于 2012-5-28 11:58:25 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
  在中国现行的互联网的制度下,标识意识还并非十分的完善,前段时间闹得沸沸扬扬的“百度文库侵权事件”并不能说明中国已经跨入了标识时代,这只不过是对于大型门户站点而言,相对小型网站、个人站点而言,相互采集可谓是非常的严重,那么伪原创的方法以及防止被采集的方法的了解和学习就显得十分的必要,像诸如此类被采集事件,笔者着实碰到了不少,比如之前的一篇文章“SEO(搜索引擎优化)之用户体验猜想”这篇文章就可谓是一波三折,最早先这篇文章是在我的博客上发布的,但是很久都并未被百度收录,情况很明显,那时候我的博客权重很低,百度蜘蛛根本没有爬过这些内容,但是隔了几天之后,我在百度搜索框搜索“SEO(搜索引擎优化)之用户体验猜想”时,出现的是我的文章,却是在一个SEO(搜索引擎优化)论坛上,得到这种结果的我干脆破罐破摔,去A5站长论坛把网站一发,并且注明了原创文章的博文地址,很快的,我的文章总算是算在了我的名下,但是却不属于我的博客,属于的是A5站长论坛。

  应对采集的方法:有了原创文章后,现在发布在自己的站点上,然后迅速得去一些权重高的论坛,空间,收藏之类的互联网平台发布文章,留下原文链接,一般而言,在这些高权重的平台,蜘蛛通常是秒收的,这样的话,蜘蛛一般会通过发布时间来判定原创的归属问题,当然了,有的时候也会把丢失原创,但是,这样做的话绝对不会存在因为蜘蛛不抓却而错过百度的收录,即使被竞争对手采集,原创度始终是属于自己的。

  现在我们来谈一谈伪原创吧。

  谈到伪原创,并非是网上常用的工具来解决,现在的百度,不断的推出诸如PV,跳出率等来对网页的权重做出一定的衡量,百度对于用户的体验的看重已经是非常重视了,如果我们还采用传统的伪原创手法,近义词替换,甚至采用反义词等等等,呵呵,我想用户跳出率会非常高的,自然,这个页面的权重也不会高到哪里去。所以,即使是伪原创,我们依然需要以极高的质量来操作伪原创。

  蜘蛛对比原创与否原理无外乎是对于百度数据库的信息相似度的对比,如果网上的内容与百度数据库的内容重复度达到了70%或以上,那么很显然,百度是不会收录的,那么利用这个原理,我们可以对百度根本没有抓取的页面进行采集,那么这些内容自然是可以作为我们原创内容的来源。

  1.百度蜘蛛没有抓取内容:

  比如说淘宝网,查看其robots:

  User-agent: Baiduspider

  Disallow: /

  User-agent: baiduspider

  Disallow: /

  很显然,淘宝整个屏蔽掉了百度蜘蛛,那么对于百度而言,淘宝网上的信息就是一个巨大的原创信息库。

  再比如说QQ空间

  # All robots will spider the domain

  User-agent: *

  Disallow:

  Sitemap: http:// qzone.qq.com/sitemap_index_qzone.xml

  2.QQ用户聊天信息:

  比如说在QQ群里的行业聊天信息,我们可以通过整理成为一篇原创资源。

  3.互联网资源整合:

  利用互联网上已经存在的资源,我们把所有的资料进行整理,造成比较全面,多样化的内容信息,其实百度百科就是互联网资源最典型的资源整合平台。

  4.不同语种的转换

  这种方法不能通过工具来,很多工具翻译出来不符合语法,需要人工整合。

  5.用户提供

  比如说用户评论,论坛活跃会员的更新等等。

  6.论坛问答

  通过互动(比如说问问题,搞活动等)获得用户的内容,这些也是相当不错的内容。

  7.非文字信息类的信息

  搜索引擎现阶段的技术只能实现识别文字,那么以图片,视频,音频等等文件出现的信息我们只需要把其转变为文字信息那么就可以把其转化成自己的原创信息。

分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 分享分享
您需要登录后才可以回帖 登录 | 会员注册

本版积分规则

锦尚中国源码论坛

聚合标签|锦尚中国,为中国网站设计添动力 ( 鲁ICP备09033200号 ) |网站地图

GMT+8, 2024-11-18 01:31 , Processed in 0.114221 second(s), 26 queries .

带宽由 锦尚数据 提供 专业的数据中心

© 锦尚中国源码论坛 52jscn Inc. 非法入侵必将受到法律制裁 法律顾问:IT法律网 & 褚福省律师 锦尚爱心 版权申诉 版权与免责声明