源码论坛公告:本站是一个交流学习建站资源的社区论坛,旨在交流学习源码脚本等资源技术,欢迎大家投稿发言! 【点击此处将锦尚放在桌面

源码论坛,商业源码下载,尽在锦尚中国商业源码论坛

 找回密码
 会员注册

QQ登录

只需一步,快速开始

查看: 1789|回复: 1
打印 上一主题 下一主题

网页搜索引擎的发展方向

[复制链接]

67

主题

417

帖子

31

金币

初级会员

Rank: 1

积分
578
跳转到指定楼层
1#
发表于 2009-9-11 14:04:17 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
互联网存在的价值就是低成本、高容量、多方的信息传递。互联网每一个杀手级应用都离不开信息和传递这两个关键词。邮箱是、即时通讯是、搜索引擎还是、将来的杀手级应用还依然离不开信息和传递这两个关键词。 搜索引擎的发展历史是一个挖掘用户需求然后满足用户需求的过程。在可以预见的不久的将来,从产品角度看待网页搜索引擎的发展大致有如下几个方面:
1. 确解用户之意 信息抽取,优化排序用户在搜索用到“最新”、“免费”、“官方网站”、“北京”、“电话”等关键词的时候并不是一定需要网页中有这个关键词,而是找这类信息。用户在找“最新”的时候实际上是希望获取其它词汇的最新相关内容,而不一定是需要含有“最新”这两个词汇的。所以在排序的时候考虑见新的网页排列在靠前位置更满足了用户的需求。用户搜索“十八街麻花 北京”是想找在北京的十八街麻花的地址或者电话。用户搜索“北京泽通华程科技发展有限公司 电话”的时候是想找电话号码。在处理这类请求需要对地理位置信息和“电话”这类词汇进行前端分析,在索引的时候识别电话号码、地址信息,在排序的时候将有相关信息的页面放置在前面、并且在做摘要提取的时候直接体现用户需要。
2. 基于视觉网页块分析这项技术激动人心,对于优化网页的排序、自动摘要的质量很有帮助。网页搜索引擎可以全文检索一样在几乎纯净的数据中处理,再加上网页中富有的其它信息,你说网页搜索的相关性能不大幅度提升吗?
3. 网页库内容分类用户在搜索“申花”,那他有可能是两个需求,1.足球相关 2.申花电器 3.其它如果用户搜索“申花”出来的全部是足球相关信息,这显然不能代表不同网民的需求。作为一个入口而言,如果将不同类型(行业不同、知识类型不同)的信息排列在首页,那用户会感觉很happy,满足了多样性的需求。这也可为将来做个性化搜索提供准备。
4. 潜在相关性搜索“恐怖”,出现一篇拉登的新闻,虽然这篇文章里面没有“恐怖”这个关键词。搜索“西红柿”出现“番茄”,但是网页中没有“西红柿”这个关键词。这个技术好像还不是很成熟。
5. 网页结构化信息抽取类技术,网页上文本内容的相关性分析结构化信息抽取实在是未来应用前景最好的一种技术,自动的抽取任意网页上的结构化数据。主要可用垂直搜索引擎:对网页数据进行采集、抽取、深度加工后为用户提供更好的、更专业的服务。结构化信息抽取可以识别网页中文本之间的相关度,可用于改善多词汇检索的关联度(计算偏移量不仅仅在文本距离上而且在表格单元格的相关性上);改善链接的相关性;改善文件和文本的相关性…… 地图搜索、黄页搜索、mp3搜索、图片搜索、bbs搜索等等各种搜索都离不开网页结构化信息抽取。
6. 自然语言处理、简单的语意语法分析 NLP还有很远的路要走,在走路的过程中也可以获得很多可应用的价值。说不定NLP不很成功,但是有可能催生了某种新技术的非常成功。而NLP不需要完全成功前就可以使用他了。搜索引擎可以根据内容来进行简易的语法分析,将某些呈现在用户面前。比如google的“DEFINE:“就用到了这种方法、同义词的识别等都可以用到这种简单的语法分析来搞定!还可以对具有某类语法的形式的正文进行关键词调权,改善检索效果。
7. 重复识别互联网的数据冗余实在太厉害了,一篇文章可能会被转载数千数万次。识别重复的网站、网页、重复的正文、重复的段落识别………… 让用户感觉到“哇噻!这里的内容不重复!” 同时对重复的信息进行调权,装载量大的信息一般比较受欢迎,应该具有更高的权值。但是要对新闻类的内容进行识别,一定时间内加权、一定时间后降权。
8. 行业优化搜索引擎的行业化是不可避免的。唯一影响搜索引擎行业化的门槛就是技术还是存在难度(这里说的技术不是那种小儿科的基于模板的元数据采集分词索引)。但是网页搜索引擎可以最大程度的行业化,在这点百度显得卓有远见。建立百度知道不仅仅可以丰富内容、语料库、拴住用户、甚至盈利。更大的用处可以用百度知道的各个行业的专业搜索用户群来改善百度搜索对各个行业的效果的用户分析,确解各行业用户之意百度可以很低成本的通达,办公家具,调动专业人员来优化效果百度可以做到。
9. 相关搜索前几天一个朋友对我说“相关搜索”的主要作用是两个,1.提示给网友其它网友搜索的词汇(帮助不太会选择关键词的用户选择关键词、提供用户之间的一种交互)2.推荐提供效果更好的更相关的相关搜索词汇第一个功能基本上满足了。第二个搜索引擎基本上还很不到位。如何完成第二个功能,很难。但是要做到一定程度,很容易。
10. 采集更多的数据互联网上的数据只是整个世界的数据的很少的一部分,搜索引擎已经不满足于各个蚂蚁搬砖头的网站的速度了。通过某种低成本高效的数据采集方式采集线下的数据、人脑中的数据是搜索引擎公司追逐的。 spider制造+用户制造+自己制造+合作制造
11. 跟踪互联网变化,细节上的优化,博弈搜索引擎是和互联网各网站、网民密切相关的一个应用,网络电话,其数据的全面性和数据源、采集系统密切相关。针对网页的结构变化、内容变化,网民的需求变化,需要不断的改善。对各种各类细节的改善都是搜索引擎的难点,也是必须走的道路,搜索引擎的发展就是关注细节,一个一个问题解决。还有,和搜索引擎优化全民化的的博弈。
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 分享分享

105

主题

908

帖子

8062

金币

中级会员

Rank: 3Rank: 3

积分
17231
2#
发表于 2009-9-13 20:59:10 | 只看该作者
为了不扰乱会员对源码的测试,有问题咨询右侧客服不要直接回复,否则视为非法信息屏蔽会员ID!
过来瞧瞧,这就走!
我是王八蛋!
您需要登录后才可以回帖 登录 | 会员注册

本版积分规则

锦尚中国源码论坛

聚合标签|锦尚中国,为中国网站设计添动力 ( 鲁ICP备09033200号 ) |网站地图

GMT+8, 2024-11-15 17:26 , Processed in 0.105098 second(s), 25 queries .

带宽由 锦尚数据 提供 专业的数据中心

© 锦尚中国源码论坛 52jscn Inc. 非法入侵必将受到法律制裁 法律顾问:IT法律网 & 褚福省律师 锦尚爱心 版权申诉 版权与免责声明