源码论坛,商业源码下载,尽在锦尚中国商业源码论坛
标题:
引擎蜘蛛是如何爬行与抓取的?
[打印本页]
作者:
忙碌的
时间:
2014-1-3 14:17
标题:
引擎蜘蛛是如何爬行与抓取的?
引擎蜘蛛是如何爬行与抓取的?
1:先了解蜘蛛爬行抓取特征主要是以“快”“全”“准”,下来会详细介绍他原理,蜘蛛我相信大家都知道,可以比喻成现实生活中蜘蛛,蜘蛛爬行需要蜘蛛网,蜘蛛网可以理解互联网,他是所有网站与网站形成非常大互联网,我们就知道想让蜘蛛喜欢快速爬行抓取你网站尽可能在建站时注意模版/列表/文章页简单和用户体验.
2:蜘蛛爬行原理特征:一种是深度优先,另一种是宽度优先:
(1)为什么深度优先:我们可以了解成像小孩刚学走路前肯定先会爬行,爬路径越长越累甚至爬一半就累了想休息就回去,那我们想到网站列表/文章路劲如很长的话蜘蛛爬一半就走,走时候什么内容都没带走。(上面就提到蜘蛛爬行一个特征“快”在这个高速发展时代什么都是快,效率,结果,当在你网站爬半天都没找到内容蜘蛛觉得还不如爬其他网站)
(2)另一种是宽度优先:这个更容易理解同一样层次页面蜘蛛比较喜欢内容好优先爬行抓取。
3:快速引蜘蛛:做SEO优化外链专员挑选一些我们资源当中高权重/IP浏览用户多/百度天天快照/不会删除文章平台发一些网址让百度知道我这个网站已经建好了,很多人投票投分数给网站,(投票投分数越多越好,说明网站曝光度广)告诉百度蜘蛛你的快来爬行抓取我网站内容。
4:重复内容检测:{建站时因注意事项(动态地址静态化)(对于优化来讲url直径越短越重要)}(1):动态地址静态化我们可以简单理解成重复内容检测如 一个动态页面入口链接(URL)如actrxsh.com地址指向不同一个地方,蜘蛛会觉得你这个动态页面入口里面这么多重复链接(URL)地址不知道那个链接(URL)地址是你想要让他抓取,蜘蛛会觉得抓取耗我这么长时间,就不想抓取.
(2)网站路径为:我们建站时候动态地址可以设置成静态化有利于蜘蛛抓取速度:网站的目录结构”可以通过伪静态正则设置成简短的“逻辑路径,不存在的“扁平结构”***为物理路径,通过设置伪静态规则 则显示出来的为假的逻辑路径(静态不一定是html形式的)“物理路径”指真实存在的路径“逻辑路径”指用正则修改的理想路径,一般为“扁平结构”显示,使用静态化规则可以避免网页的重复性(url的绝对性)累积权重,避免重复(做静态话可获最大分值)
5:地址库:可以理解成地址与库概念,蜘蛛“快”“全”“准”爬行抓取互联网所有URL ,然后URL地址蜘蛛抓取地址放到他想存储库里面去.这就叫地址库。本文由12V10A LED开关电源http://www.sztlydz.com.cn/products-detail.asp?cpid=119整理,转载以链接形式注明。
作者:
tjsqwx
时间:
2014-1-3 15:11
根据关键词的布局
作者:
tjsqwx
时间:
2014-1-3 15:12
这就是我们现在讲的关键词该如何合理布局,太多太少都不好!
欢迎光临 源码论坛,商业源码下载,尽在锦尚中国商业源码论坛 (https://bbs.52jscn.com/)
Powered by Discuz! X3.3