源码论坛公告:本站是一个交流学习建站资源的社区论坛,旨在交流学习源码脚本等资源技术,欢迎大家投稿发言! 【点击此处将锦尚放在桌面

源码论坛,商业源码下载,尽在锦尚中国商业源码论坛

 找回密码
 会员注册

QQ登录

只需一步,快速开始

查看: 788|回复: 2
打印 上一主题 下一主题

[交流] 引擎蜘蛛是如何爬行与抓取的?

[复制链接]

293

主题

294

帖子

62

金币

初级会员

Rank: 1

积分
330
QQ
跳转到指定楼层
1#
发表于 2014-1-3 14:17:14 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
引擎蜘蛛是如何爬行与抓取的?
1:先了解蜘蛛爬行抓取特征主要是以“快”“全”“准”,下来会详细介绍他原理,蜘蛛我相信大家都知道,可以比喻成现实生活中蜘蛛,蜘蛛爬行需要蜘蛛网,蜘蛛网可以理解互联网,他是所有网站与网站形成非常大互联网,我们就知道想让蜘蛛喜欢快速爬行抓取你网站尽可能在建站时注意模版/列表/文章页简单和用户体验.

2:蜘蛛爬行原理特征:一种是深度优先,另一种是宽度优先:
(1)为什么深度优先:我们可以了解成像小孩刚学走路前肯定先会爬行,爬路径越长越累甚至爬一半就累了想休息就回去,那我们想到网站列表/文章路劲如很长的话蜘蛛爬一半就走,走时候什么内容都没带走。(上面就提到蜘蛛爬行一个特征“快”在这个高速发展时代什么都是快,效率,结果,当在你网站爬半天都没找到内容蜘蛛觉得还不如爬其他网站)
(2)另一种是宽度优先:这个更容易理解同一样层次页面蜘蛛比较喜欢内容好优先爬行抓取。

3:快速引蜘蛛:做SEO优化外链专员挑选一些我们资源当中高权重/IP浏览用户多/百度天天快照/不会删除文章平台发一些网址让百度知道我这个网站已经建好了,很多人投票投分数给网站,(投票投分数越多越好,说明网站曝光度广)告诉百度蜘蛛你的快来爬行抓取我网站内容。
4:重复内容检测:{建站时因注意事项(动态地址静态化)(对于优化来讲url直径越短越重要)}(1):动态地址静态化我们可以简单理解成重复内容检测如 一个动态页面入口链接(URL)如actrxsh.com地址指向不同一个地方,蜘蛛会觉得你这个动态页面入口里面这么多重复链接(URL)地址不知道那个链接(URL)地址是你想要让他抓取,蜘蛛会觉得抓取耗我这么长时间,就不想抓取.
(2)网站路径为:我们建站时候动态地址可以设置成静态化有利于蜘蛛抓取速度:网站的目录结构”可以通过伪静态正则设置成简短的“逻辑路径,不存在的“扁平结构”***为物理路径,通过设置伪静态规则 则显示出来的为假的逻辑路径(静态不一定是html形式的)“物理路径”指真实存在的路径“逻辑路径”指用正则修改的理想路径,一般为“扁平结构”显示,使用静态化规则可以避免网页的重复性(url的绝对性)累积权重,避免重复(做静态话可获最大分值)

5:地址库:可以理解成地址与库概念,蜘蛛“快”“全”“准”爬行抓取互联网所有URL ,然后URL地址蜘蛛抓取地址放到他想存储库里面去.这就叫地址库。本文由12V10A LED开关电源http://www.sztlydz.com.cn/products-detail.asp?cpid=119整理,转载以链接形式注明。
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 分享分享

130

主题

236

帖子

2806

金币

中级会员

www.tjsqwx.com 天津网站建设

Rank: 3Rank: 3

积分
5785
QQ
2#
发表于 2014-1-3 15:11:45 | 只看该作者
为了不扰乱会员对源码的测试,有问题咨询右侧客服不要直接回复,否则视为非法信息屏蔽会员ID!
根据关键词的布局

130

主题

236

帖子

2806

金币

中级会员

www.tjsqwx.com 天津网站建设

Rank: 3Rank: 3

积分
5785
QQ
3#
发表于 2014-1-3 15:12:29 | 只看该作者
为了不扰乱会员对源码的测试,有问题咨询右侧客服不要直接回复,否则视为非法信息屏蔽会员ID!
这就是我们现在讲的关键词该如何合理布局,太多太少都不好!
您需要登录后才可以回帖 登录 | 会员注册

本版积分规则

锦尚中国源码论坛

聚合标签|锦尚中国,为中国网站设计添动力 ( 鲁ICP备09033200号 ) |网站地图

GMT+8, 2024-11-16 07:01 , Processed in 0.150266 second(s), 26 queries .

带宽由 锦尚数据 提供 专业的数据中心

© 锦尚中国源码论坛 52jscn Inc. 非法入侵必将受到法律制裁 法律顾问:IT法律网 & 褚福省律师 锦尚爱心 版权申诉 版权与免责声明