当前位置: 技术问答>java相关
哪位大虾能给俺讲讲门户网站的搜索技术?在下不胜感谢,留言者有分。
来源: 互联网 发布时间:2015-03-02
本文导语: | 搜索引擎的现状与未来 一、为搜索引擎正名 搜索引擎一词在国内外因特网领域被广泛使用,然而,它的含义却不尽相同。在美国,搜索引擎(SEARCH ENGINE)通常指的是基于因特网的搜索引擎,这种引...
|
搜索引擎的现状与未来
一、为搜索引擎正名
搜索引擎一词在国内外因特网领域被广泛使用,然而,它的含义却不尽相同。在美国,搜索引擎(SEARCH ENGINE)通常指的是基于因特网的搜索引擎,这种引擎收集因特网上几千万到几亿个网页数量不等,并且每一个网页上的每一个词都被搜索引擎所收录,也就是我们所说的全文检索。典型的因特网搜索引擎包括ALTAVISTA,INKTOMI,INFOSEEK,GOOGLE等。在中国,搜索引擎通常指的是基于网站目录的搜索服务或是特定网站的搜索服务。前者如搜狐、新浪等公司开发的网站搜索服务,后者如《北京青年报》网站上提供的全文检索服务。
在过去的几年中,国内对基于因特网的搜索引擎的开发也作过一些尝试,例如北大的天网,清华的网络指南针等,但是由于这种搜索引擎的开发难度相当大,该方面的专业人才奇缺,有开发这种搜索引擎经验的人,即使在硅谷也属凤毛麟角,加之它对硬件的投入要求也非常高,商业化的因特网中文搜索引擎一直没有出现。
二、搜索引擎的工作原理
搜索引擎起源于传统的信息全文检索理论,即计算机程序通过扫描每一篇文章中的每一个词,建立以词为单位的到排文件,检索程序根据检索词在每一篇文章中出现的频率和每一个检索词在一篇文章中出现的概率,对包含这些检索词的文章进行排序,最后输出排序的结果。因特网搜索引擎除了需要有全文检索系统之外,还要有所谓的“蜘蛛”(SPIDER)系统,即能够从互联网上自动收集网页的数据搜集系统。蜘蛛将搜集所得的网页内容交给索引和检索系统处理,就形成了我们常见的因特网搜索引擎系统。当然,一个完整的搜索引擎系统还需要有一个检索结果的页面生成系统,也就是要把检索结果高效地组装成万维网页面。当系统的访问量(PAGE VIEW) 变大时,页面生成系统往往会成为整个系统的瓶颈。
与传统的信息检索理论研究不同,搜索引擎的用户看重的是系统的稳定性、速度、易用性和返回的信息量及相关度。
三、著名搜索引擎简介
AltaVista: 诞生于DEC 设在硅谷的研发中心,起初是为了显示其APLHA 机的运算速度而开发的,以反应速度快和数据库容量大著称,1999年被CMGI收购;
Infoseek:最早的搜索引擎之一, 以相关性好著称。1999年被迪斯尼公司收购;
Excite:为斯坦福大学学生所创,其引擎曾是美国在线的缺省搜索引擎,1998 年被 @HOME并购;
Lycos:起源于美国东部,数据更新较慢;
Inktomi:为美国前三大网络门户AOL,YAHOO!和 MSN 提供搜索引擎服务,经营方式不同于早期的搜索引擎公司;
Google:新兴的搜索引擎公司,以分析超链见长,经营方式尚不明确。
四、 搜索引擎面临的挑战
WEB 商业化至今,搜索引擎始终保持着网络上被使用最多的服务项目的地位,然而,随着网上内容的爆炸式增长和内容形式花样的不断翻新,搜索引擎越来越不能满足挑剔的网民们的各种信息需求。这表现在以下几个方面:
搜索引擎对自然语言提问没有理解能力;
所有著名的搜索引擎都不支持中文或是对中文的支持极弱;
搜索引擎收集的网页数量和其数据库的更新速度存在着不可调和的矛盾;
搜索引擎无法与电子商务紧密结合;
搜索引擎对多媒体内容的处理尚不成熟。
五、 新一代搜索引擎
Ask Jeeves: 巧妙地将用户提问转化为系统已知的问题,然后对已知的问题进行回答。这样就降低了对自然语言理解技术的依赖性;
Baidu.com: 第一个为中国人写的商业化的因特网搜索引擎,具有信息量大,相关性好,刷新率高,速度快等特点;
Goto.com: 最先将拍卖的概念引入搜索引擎服务,当用户检索某些词时,广告商可以通过竟拍使自己的网站在搜索结果中的排名提前。这就把电子商务的概念轻松地引入了搜索服务;
MySimon: 这是一个完全面向电子商务的搜索服务,它对同一种商品按价格的高低进行排序。这家公司不久前被CNET收购;
Ditto:这是一个多媒体的搜索引擎,目前主要提供网上图像的搜索,已收集了超过200 万个图像,并且大多经过人工的筛选,因而搜索结果质量较高。
六、搜索引擎的未来
搜索引擎的发展经过了几个阶段,起初大家一味地追求数据库的大小,即收集的网页的多少;后来发现对同一用户提问,搜索引擎返回的信息太多,用户感到无所适从。1996年起,搜索引擎技术开始注重网页质量与相关性的结合,这主要是通过三种手段:
一、是对网上的超链结构进行分析,如INFOSEEK和GOOGLE;
二、是对用户的点击行为进行分析,如DIRECTHIT(被ASK JEEVES收购);
三、是与网站目录相结合。最新的趋势则是搜索的个性化和本地化。
个性化:入门网站的个性化已经比较成熟了,但是搜索引擎的个性化并没有得到解决,不同的人使用相同的检索词得到的结果是相同的。也就是说搜索引擎没有考虑人的地域、性别、年龄等方面的差别。DIRECTHIT 等公司一年前开始了个性化方面的研发工作,但至今没有推出任何产品。
本地化:本地化是一个比个性化更明显的趋势。随着因特网在全球的迅速普及,综合性的搜索引擎已经不能满足很多非美国网民的信息需求。近来,Yahoo!、 Inktomi、 Lycos等公司不断推出各国、各地区的本地搜索网站,搜索的本地化已经是势不可挡。
一、为搜索引擎正名
搜索引擎一词在国内外因特网领域被广泛使用,然而,它的含义却不尽相同。在美国,搜索引擎(SEARCH ENGINE)通常指的是基于因特网的搜索引擎,这种引擎收集因特网上几千万到几亿个网页数量不等,并且每一个网页上的每一个词都被搜索引擎所收录,也就是我们所说的全文检索。典型的因特网搜索引擎包括ALTAVISTA,INKTOMI,INFOSEEK,GOOGLE等。在中国,搜索引擎通常指的是基于网站目录的搜索服务或是特定网站的搜索服务。前者如搜狐、新浪等公司开发的网站搜索服务,后者如《北京青年报》网站上提供的全文检索服务。
在过去的几年中,国内对基于因特网的搜索引擎的开发也作过一些尝试,例如北大的天网,清华的网络指南针等,但是由于这种搜索引擎的开发难度相当大,该方面的专业人才奇缺,有开发这种搜索引擎经验的人,即使在硅谷也属凤毛麟角,加之它对硬件的投入要求也非常高,商业化的因特网中文搜索引擎一直没有出现。
二、搜索引擎的工作原理
搜索引擎起源于传统的信息全文检索理论,即计算机程序通过扫描每一篇文章中的每一个词,建立以词为单位的到排文件,检索程序根据检索词在每一篇文章中出现的频率和每一个检索词在一篇文章中出现的概率,对包含这些检索词的文章进行排序,最后输出排序的结果。因特网搜索引擎除了需要有全文检索系统之外,还要有所谓的“蜘蛛”(SPIDER)系统,即能够从互联网上自动收集网页的数据搜集系统。蜘蛛将搜集所得的网页内容交给索引和检索系统处理,就形成了我们常见的因特网搜索引擎系统。当然,一个完整的搜索引擎系统还需要有一个检索结果的页面生成系统,也就是要把检索结果高效地组装成万维网页面。当系统的访问量(PAGE VIEW) 变大时,页面生成系统往往会成为整个系统的瓶颈。
与传统的信息检索理论研究不同,搜索引擎的用户看重的是系统的稳定性、速度、易用性和返回的信息量及相关度。
三、著名搜索引擎简介
AltaVista: 诞生于DEC 设在硅谷的研发中心,起初是为了显示其APLHA 机的运算速度而开发的,以反应速度快和数据库容量大著称,1999年被CMGI收购;
Infoseek:最早的搜索引擎之一, 以相关性好著称。1999年被迪斯尼公司收购;
Excite:为斯坦福大学学生所创,其引擎曾是美国在线的缺省搜索引擎,1998 年被 @HOME并购;
Lycos:起源于美国东部,数据更新较慢;
Inktomi:为美国前三大网络门户AOL,YAHOO!和 MSN 提供搜索引擎服务,经营方式不同于早期的搜索引擎公司;
Google:新兴的搜索引擎公司,以分析超链见长,经营方式尚不明确。
四、 搜索引擎面临的挑战
WEB 商业化至今,搜索引擎始终保持着网络上被使用最多的服务项目的地位,然而,随着网上内容的爆炸式增长和内容形式花样的不断翻新,搜索引擎越来越不能满足挑剔的网民们的各种信息需求。这表现在以下几个方面:
搜索引擎对自然语言提问没有理解能力;
所有著名的搜索引擎都不支持中文或是对中文的支持极弱;
搜索引擎收集的网页数量和其数据库的更新速度存在着不可调和的矛盾;
搜索引擎无法与电子商务紧密结合;
搜索引擎对多媒体内容的处理尚不成熟。
五、 新一代搜索引擎
Ask Jeeves: 巧妙地将用户提问转化为系统已知的问题,然后对已知的问题进行回答。这样就降低了对自然语言理解技术的依赖性;
Baidu.com: 第一个为中国人写的商业化的因特网搜索引擎,具有信息量大,相关性好,刷新率高,速度快等特点;
Goto.com: 最先将拍卖的概念引入搜索引擎服务,当用户检索某些词时,广告商可以通过竟拍使自己的网站在搜索结果中的排名提前。这就把电子商务的概念轻松地引入了搜索服务;
MySimon: 这是一个完全面向电子商务的搜索服务,它对同一种商品按价格的高低进行排序。这家公司不久前被CNET收购;
Ditto:这是一个多媒体的搜索引擎,目前主要提供网上图像的搜索,已收集了超过200 万个图像,并且大多经过人工的筛选,因而搜索结果质量较高。
六、搜索引擎的未来
搜索引擎的发展经过了几个阶段,起初大家一味地追求数据库的大小,即收集的网页的多少;后来发现对同一用户提问,搜索引擎返回的信息太多,用户感到无所适从。1996年起,搜索引擎技术开始注重网页质量与相关性的结合,这主要是通过三种手段:
一、是对网上的超链结构进行分析,如INFOSEEK和GOOGLE;
二、是对用户的点击行为进行分析,如DIRECTHIT(被ASK JEEVES收购);
三、是与网站目录相结合。最新的趋势则是搜索的个性化和本地化。
个性化:入门网站的个性化已经比较成熟了,但是搜索引擎的个性化并没有得到解决,不同的人使用相同的检索词得到的结果是相同的。也就是说搜索引擎没有考虑人的地域、性别、年龄等方面的差别。DIRECTHIT 等公司一年前开始了个性化方面的研发工作,但至今没有推出任何产品。
本地化:本地化是一个比个性化更明显的趋势。随着因特网在全球的迅速普及,综合性的搜索引擎已经不能满足很多非美国网民的信息需求。近来,Yahoo!、 Inktomi、 Lycos等公司不断推出各国、各地区的本地搜索网站,搜索的本地化已经是势不可挡。