源码论坛,商业源码下载,尽在锦尚中国商业源码论坛
标题:
谈谈未来搜索引擎面临的问题
[打印本页]
作者:
dhwzlj
时间:
2012-4-3 21:44
标题:
谈谈未来搜索引擎面临的问题
页面抓取需求快而各个方面互联网是个动态的内容网络,每日有无数页面被更新、被开创,无数用户在网站上宣布内容、沟通结合。要回返最有用的内容,搜索引擎网站就要抓取最新的页面。不过因为页面数目很大,搜索引擎网站蛛蛛更新一回数据库中的页面要花多时。搜索引擎网站刚诞生时,这个抓取周期往往以几个月计算。这也就是为何000816在2003年曾经每个月有一次大更新。
如今主流搜索引擎网站都已经能在几天之内更新关紧页面,权重高的网站上的新文件几钟头甚至于几分钟之内便会被收录。然而,这种迅速收录和更新也只能限制于高权重网站。众多页面几个月不可以被从新抓取和更新,也是十分常见的。
要回返最好的最后结果,搜索引擎网站也务必抓取尽力各个方面的页面,这就需求解决众多技术问题。一点网站并有弊于搜索引擎网站蛛蛛爬动和抓取,诸如网站链接结构的欠缺,数量多运用?
脚本代码,或把内容放在用户务必登录往后能力过访的局部,这都增长了搜索引擎网站抓取内容的困难程度。海量数值储存一点大型网站一个网站就有一百万务必页面,可以假想网上全部网站的页面加起来是一个啥子数值量。搜索引擎网站蛛蛛抓取页面后,还务必管用储存这些个数值,数值结构务必合理,具有极高的扩展性,写入及过访速度要求也颀长。
除开页面数值,搜索引擎网站还需求储存页面之间的链接关系以及数量多历史数值,这么的数值量是我们用户没有办法假想的。据闻&00816有几十个数值核心,上一百万台服务器。这么大规模的数值储存和过访定然存在众多技术挑战。
我们常常在搜索最后结果入眼见,名次会没有表面化端由地上下撩动,甚至于有可能按F5一下子页面,就看见不一样的名次,有的时刻网站数值也有可能遗失。这些个都有可能与大规模数值储存的技术困难的问题相关。
引得处置迅速管用,具可扩展性搜索引擎网站将页面数值抓取和储存后,还要施行引得处置,涵盖链接关系的计算、正向引得、倒排引得等。因为数值库中页面数目大,施行?仗什么的的迭代计算也是耗时费劲。要想趁早供给有关又趁早的搜索最后结果,仅只抓取也没有用,还务必施行数量多引得计算。
新页面参加,引得处置也要具有美好的扩展性。
査询处置迅速正确查问是平常的用户惟一能看见的搜索引擎网站办公步骤。用户在搜索框输入网站关键词,点击搜索按键后, 一般不到一秒后便会看见搜索最后结果。外表最简单的过程,其实牵连了十分复杂的后台处置。在最终的查问阶段,最关紧的困难的问题是怎样在不到一秒钟的时间内,迅速从几十万几一百万,甚至于几务必里面含有搜索词的页面中,找到最合理、最有关的一千个页面,况且依照像关性、权威性排列。
判断用户意向以及人工智能应当说前四个挑战如今的搜索引擎网站都已经能够比较好地解决,但判断用户意向还居于初等阶段。不一样用户搜索相同的网站关键词,很有可能是在寻觅不一样的物品。譬如搜索"水果",用户到尽头是想理解水果这个苹果?仍然水果电脑?仍然电影《水果》的信息?没有上下文,没有对用户私人搜索习性的理解,就绝对无从判断。
搜索引擎网站到现在为止正在着力于基于用户搜索习性及历史数值的理解上,判断搜索意向,回返更有关的最后结果。从今以后搜索引擎网站是否能达到人工智能水准,真正理解用户搜索词的意义和目标,让我们拭目以待。呵呵 是进展发展方向!!本文由 www.nczjj.com 整发
欢迎光临 源码论坛,商业源码下载,尽在锦尚中国商业源码论坛 (https://bbs.52jscn.com/)
Powered by Discuz! X3.3