源码论坛公告:本站是一个交流学习建站资源的社区论坛,旨在交流学习源码脚本等资源技术,欢迎大家投稿发言! 【点击此处将锦尚放在桌面

源码论坛,商业源码下载,尽在锦尚中国商业源码论坛

 找回密码
 会员注册

QQ登录

只需一步,快速开始

查看: 2268|回复: 14
打印 上一主题 下一主题

[交流] 分析搜索引擎如何首先抓取最重要的网页?

  [复制链接]

320

主题

327

帖子

865

金币

初级会员

Rank: 1

积分
1966
QQ
跳转到指定楼层
1#
发表于 2012-6-9 17:45:02 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
  搜索引擎面对海量的网页,他们并不是平行的抓取每一个网页,由于无论搜索引擎数据库怎样扩张,都是无法跟上网页的增长速度,搜索引擎会优先抓取最重要的网页,一方面节省数据库,一方面对普通的用户也是有协助的,由于,对用户来说,他们并不需求海量的后果,只需求最重要的后果。所以说一个好的搜集战略是优先搜集重要的网页,以便可以在最短的工夫内把最重要的网页抓取过去。  那么搜索引擎如何首先抓取最重要的网页?

  经过对海量的网页特征剖析,搜索引擎以为重要的网页有如下的根本特征,虽然不一定完全精确,但是大少数时分的确是这样的:  1) 网页被其他的网页链接的特点,假如被链接的次数多或许被重要的网页所链接,则是很重要的网页;

  2) 某网页的父网页被链接的次数多或许被重要的网页所链接,比方一个网页是一个网站的内页,但是其首页被链接的次数多,而首页也链接了这个网页,则阐明这个网页也比拟重要;  3) 网页的内容被转载传达的广。

  4) 网页的目录深度小,易于用户阅读到。 这里定义“URL 目录深度”为:网页 URL 中除去域名局部的目录层次,即URL 为http:// www. domain.com,则目录深度为 0;假如是 http:// www. domain.com/cs,则目录深度为 1,一次类推。需求阐明的是,URL 目录深度小的网页并非总是重要的,目录深度大的网页也并非全不重要,有些学术论文的网页 URL 就有很长的目录深度。少数重要度高的网页会同时具有上述 4 个特征。  5)优先搜集网站首页,并赋予首页高的权重值。网站数目远小于网页数,并且重要的网页也必定是从这些网站首页链接过来的,因而搜集任务该当优先取得尽能够多的网站首页。

  这里成绩就随之呈现,搜索引擎开端抓取网页的时分,能够既不晓得网页被链接的状况也不晓得被转载的状况,换句话说,最开端的时分他并不能晓得后面3项的特征,这些要素只能在取得网页或简直一切的 Web 链接构造之后才干够晓得。那么怎样处理这个成绩呢?那就是特征4和5是可以在抓取的时分就能晓得的,只要特征 4 是不需求晓得网页的内容(没有抓取网页之前)就可以确定某个 URL 能否契合“重要”的规范,而且网页 URL 目录深度的计算就是对字符串的处置,统计后果标明普通的 URL 长度都小于 256 个字符,这使得 URL 目录深度的判别易于完成。所以关于搜集战略确实定,特征 4 和5是最值得思索的指点要素。  但是,特征 4 和5具有局限性,由于链接的深度并不能完全标明这个网页的重要水平。那么怎样处理这个成绩?搜索引擎采用如下的方法:

  1) URL 权值的设定:依据 URL 的目录深度来定,深度是多少,权值就增加多少,权值最小为零。  2) 设定 URL 初始权值为 一个固定的数值 。

  3) URL 中呈现字符”/”,”?” ,或”&” 1 次, 则权值减 一个数值 ,出  现”search”,”proxy”,或”gate” 1 次,则权值减一个数值;最多减到零。(包括”?”,

  或”&” 的URL 是带参数的方式,需求经过被恳求方顺序效劳取得网页,不是搜索引擎零碎侧重的静态网页,因而权值相应降低。包括”search”,”proxy”,或”gate” ,阐明该网页极大能够是搜索引擎中检索的后果页面,代理页面,因而要降低权值)。  4) 选择未拜访 URL 的战略。由于权值小不一定阐明不重要,所以有必要

  给一定的时机搜集权值小的未拜访 URL 。选择未拜访 URL 的战略可以采用轮番的办法停止,一次依照权值排序取,一次随机取;或许 N次随机选取。  当搜索引擎抓取了少量的网页的时分,然后进入到一个阶段,对网页停止后面3个特征的判读,再经过少量的算法判别网页的质量,然后给予绝对的排名。

  本文来源自最新股评http://www.niulaile.com/stockblog/,转载请保留链接。
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 分享分享

7

主题

71

帖子

118

金币

任意通会员(年费)

积分
288
QQ
2#
发表于 2012-6-9 22:42:53 | 只看该作者
为了不扰乱会员对源码的测试,有问题咨询右侧客服不要直接回复,否则视为非法信息屏蔽会员ID!
看看!

8

主题

799

帖子

350

金币

任意通会员(年费)

积分
1265
3#
发表于 2012-6-19 18:24:05 | 只看该作者
为了不扰乱会员对源码的测试,有问题咨询右侧客服不要直接回复,否则视为非法信息屏蔽会员ID!
朋友不错,谢谢您的努力,顶了

27

主题

131

帖子

79

金币

初级会员

Rank: 1

积分
278
4#
发表于 2012-6-20 14:34:53 | 只看该作者
为了不扰乱会员对源码的测试,有问题咨询右侧客服不要直接回复,否则视为非法信息屏蔽会员ID!
了解下先了。。。。。。。

0

主题

23

帖子

0

金币

初级会员

Rank: 1

积分
16
QQ
5#
发表于 2012-6-26 14:01:34 | 只看该作者
为了不扰乱会员对源码的测试,有问题咨询右侧客服不要直接回复,否则视为非法信息屏蔽会员ID!
度娘就是麻烦...

8

主题

799

帖子

350

金币

任意通会员(年费)

积分
1265
6#
发表于 2012-6-27 19:42:08 | 只看该作者
为了不扰乱会员对源码的测试,有问题咨询右侧客服不要直接回复,否则视为非法信息屏蔽会员ID!
继续关注一下这方面的信息

0

主题

57

帖子

0

金币

初级会员

Rank: 1

积分
40
QQ
7#
发表于 2012-7-17 11:26:09 | 只看该作者
为了不扰乱会员对源码的测试,有问题咨询右侧客服不要直接回复,否则视为非法信息屏蔽会员ID!
了解一下

18

主题

657

帖子

204

金币

初级会员

Rank: 1

积分
1169
8#
发表于 2012-8-20 14:54:12 | 只看该作者
为了不扰乱会员对源码的测试,有问题咨询右侧客服不要直接回复,否则视为非法信息屏蔽会员ID!
学习了,谢楼主分享

11

主题

337

帖子

175

金币

初级会员

将军

Rank: 1

积分
770
9#
发表于 2012-8-20 16:10:04 | 只看该作者
为了不扰乱会员对源码的测试,有问题咨询右侧客服不要直接回复,否则视为非法信息屏蔽会员ID!
说的好。

1

主题

12

帖子

1

金币

初级会员

Rank: 1

积分
10
QQ
10#
发表于 2012-8-20 19:03:04 | 只看该作者
为了不扰乱会员对源码的测试,有问题咨询右侧客服不要直接回复,否则视为非法信息屏蔽会员ID!
好好好,学习了
您需要登录后才可以回帖 登录 | 会员注册

本版积分规则

锦尚中国源码论坛

聚合标签|锦尚中国,为中国网站设计添动力 ( 鲁ICP备09033200号 ) |网站地图

GMT+8, 2024-11-14 08:19 , Processed in 0.143664 second(s), 24 queries .

带宽由 锦尚数据 提供 专业的数据中心

© 锦尚中国源码论坛 52jscn Inc. 非法入侵必将受到法律制裁 法律顾问:IT法律网 & 褚福省律师 锦尚爱心 版权申诉 版权与免责声明