源码论坛公告:本站是一个交流学习建站资源的社区论坛,旨在交流学习源码脚本等资源技术,欢迎大家投稿发言! 【点击此处将锦尚放在桌面

源码论坛,商业源码下载,尽在锦尚中国商业源码论坛

 找回密码
 会员注册

QQ登录

只需一步,快速开始

查看: 593|回复: 0
打印 上一主题 下一主题

[交流] 伤不起的蜘蛛陷阱

[复制链接]

1144

主题

1129

帖子

2150

金币

中级会员

Rank: 3Rank: 3

积分
5090
QQ
跳转到指定楼层
1#
发表于 2013-9-22 19:48:48 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
1、flash。
搜素引擎室无法读取flash上的文字,也是不能读取flash的链接的;有的网站的首页点进去会看到一个flash动画,然后再出现真正的html版本的文字网站首页,搜索引擎是不能读取flash的,一般也没办法读取flash intro跟踪到html版本页面。就算首页需要也至少需要添加一个通往html版本的链接,这个链接在flash文件之外的代码中。
2、Session ID
有些网站使用Session ID来跟踪用户访问,每个用户访问网站时会生成唯一的Session ID加在链接中,蜘蛛来访问的时候也会生成唯一的id,这样蜘蛛每次访问的链接不一样,却得到的是同一个页面。当然搜索引擎蜘蛛遇到这种长长的Session ID,会尝试判断字符串是Session ID还是正常参数,成功判断出Session ID,就可以去掉Session ID,收录正常的URL,但是也是经常判断不出来,要么蜘蛛不愿意收录,要么收录多个带不同Session ID的URL,内容却完全一样,形成大量的复制内容。
建议跟踪用户访问使用Cookies,而不是生成Session ID,或者程序判断是蜘蛛还是普通用户,是蜘蛛则不生成Session ID。

3、各种跳转。
除了301转向外(301转向--永久性转向,可以把页面的权重从旧网站转移到新网站),搜索引擎对其他的转向都比较敏感,对蜘蛛爬行是不利的。如302跳转(暂时性转移),meta refresh跳转,flash跳转。
4、框架结构。
不利于蜘蛛的抓取。访问一个使用框架的网址所抓取的HTML只包含调用其他HTML文件的代码,并不包含任何体育直播文字信息,搜素引擎根本无法判定这个网站的内容是什么。虽然蜘蛛可以跟着框架中所调用的其他其他HTML文件,但是这些文件经常是不完整的页面,比如没有导航只有正文。搜素引擎也无法判断框架中的页面内容应该属于主框架还是属于框架调用的文件。
5、动态URL
指的是数据库驱动的网站所生成的,带有问号,等号以及参数的网址,动态url是不利于蜘蛛爬行的。
6、js链接
虽然搜素引擎在尝试解析js脚本,但是我们不要寄太多的希望,最好使用简单标准的html链接,使蜘蛛爬行变的容易。虽然有的引擎在技术上可以获得js脚本中包含的链接,甚至可以执行脚本并跟踪链接,但对一些权重比较低的网站,搜索引擎觉得没必要,不会费那个劲。
特殊用户:不希望目录、文件被收录(没有排名意义的页面,内容重复的页面),不希望传递权重的链接。
7、要求登录。有的网站内容放在需要用户登录以后才能看到。这样搜索引擎是无法看到的。
8、强制使用Cookies蜘蛛相当于一个禁用了Cookies的浏览器,强制使用只能造成搜索引擎蜘蛛无法正常访问。
本文来自: 5819.cc|0250.cc|9083.cc|bt88.cc|7089.cc
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 分享分享
您需要登录后才可以回帖 登录 | 会员注册

本版积分规则

锦尚中国源码论坛

聚合标签|锦尚中国,为中国网站设计添动力 ( 鲁ICP备09033200号 ) |网站地图

GMT+8, 2024-11-17 11:38 , Processed in 0.150807 second(s), 26 queries .

带宽由 锦尚数据 提供 专业的数据中心

© 锦尚中国源码论坛 52jscn Inc. 非法入侵必将受到法律制裁 法律顾问:IT法律网 & 褚福省律师 锦尚爱心 版权申诉 版权与免责声明