当前位置：首页 > news >正文

厦门做外贸网站珠海市区工商年报在哪个网站做

news 2026/5/4 15:40:50

厦门做外贸网站,珠海市区工商年报在哪个网站做,海南代理注册公司,seo专家是什么意思自从1994年问世以来#xff0c;搜索引擎逐渐成为了人们获取Internet信息资源的主要方式#xff0c;相关搜索引擎网站也逐渐成为Web用户使用Internet时的首选访问站点之一#xff0c;另外搜索引擎和实时通讯、电子邮件等服务已经成为当今各大门户网站用来吸引用户访问的三大主…自从1994年问世以来搜索引擎逐渐成为了人们获取Internet信息资源的主要方式相关搜索引擎网站也逐渐成为Web用户使用Internet时的首选访问站点之一另外搜索引擎和实时通讯、电子邮件等服务已经成为当今各大门户网站用来吸引用户访问的三大主要方式。据iResearch艾瑞咨询报告说明2009年中国搜索引擎市场规模达69.6亿元年同比增38.5%。搜索引擎市场规模在网络广告市场规模占比也已达33.6%相比2008年的29.6%上升4.0个百分点[1]。这些都充分说明搜索引擎已经成为Internet上一种重要的网站类型。利用搜索引擎获取Internet信息资源也是网络用户常见的访问操作。本章首先主要介绍了搜索引擎在国外和国内的发展历史和现状通过对此问题的了解有助于我们认识搜索引擎的特点如为什么搜索引擎是现在这个样子为什么该这样使用搜索引擎这些都是我们需要回答的问题其次本章还简单讨论了一下搜索引擎的基本原理以此来加深读者对搜索引擎的了解从而更好的帮助读者使用搜索引擎。事实上有时候我们会觉得搜索引擎不是很好用个中原因很复杂但是有一点是肯定的如果我们越了解搜索引擎我们就会越能有效的使用搜索引擎。 1.1 搜索引擎的发展搜索引擎这个名称比较古怪来自于它的英文名称Search Engine言下之意它是一种查询信息的发动机。可以说整个搜索引擎的发展历史就是Internet网络的发展历史因为网络用户一直存在着从大量网络信息中获取自己所需信息的需求而且这种需求随着Internet的快速增加而日渐迫切。按照查询技术的发展过程搜索引擎的发展经历过三个主要阶段第一阶段时间跨度大致为1990年到1998年这个时期的搜索引擎主要着力于解决如何快速有效的从大量网页中获取较为完整的搜索结果开始使用爬虫等信息收集方式和使用Web目录等信息组织方式代表性的搜索引擎有Altavista等第二阶段时间跨度大致为1998年到2004年此时的Internet规模已经相当庞大查询结果是否完整似乎已经没有太大意义相反搜索引擎开始努力在查询质量和命中网页结果的相关排序上来提高用户的满意度基于网页链接分析的算法逐渐被搜索引擎广泛采用Google就是典型的代表第三阶段时间跨度为2004年至今各大搜索引擎不断应用先进的技术来改进功能如增加多媒体信息查询功能、个性化搜索引擎功能等。 1.1.1 国外搜索引擎的发展历史应该说如果没有Internet就没有搜索引擎。但是在Internet出现之前很多人所提出的思想和见解却深深的影响了现代搜索引擎的出现和发展。比较著名的有两个人物。 1945年万尼瓦尔·布什Vannevar Bush在《大西洋月刊The Atlantic Monthly》上发表了一篇重要的文章《As We May Think》中文译名为“诚若所思”。虽然那个时代还没有计算机但是在这篇文章中作者提到了类似于超文本的思想同时还指出未来的世界会出现一种独立于人类大脑以外的知识扩展体Memory Extension该物体具有无限大的虚拟空间可以很好的扩展同时还能提供有效的信息获取方法作者称之为“Memex”。该文如图3. 1所示图3. 1 《大西洋月刊》上的《诚若所思》一文截取于2010-3 万尼瓦尔·布什大胆的预测了未来人类可能会面临的信息处理困境这是他书中的原话“The difficulty seems to be, not so much that we publish unduly in view of the extent and variety of present day interests, but rather that publication has been extended far beyond present ability to make real use of the record”。然而万尼瓦尔·布什并没有在技术上给出实现。20世纪六七十年代美国康奈尔大学Cornell University的杰勒德·沙顿Gerard Salton教授在信息检索技术方面做出了很多贡献很多技术直到今天还在搜索引擎中得到广泛的应用如空间向量模型、词频、倒文档频率和相关度反馈等技术他甚至还研发了SMART信息检索原型系统。 1.1.1.1 早期的搜索引擎相对于其他类型的信息服务类型Internet使用WWW服务的时间是比较晚的。所以早期的Internet并不存在类似于今天的搜索引擎但是仍然出现了很多相似的工具。 1Archie 1990年加拿大蒙特利尔的麦吉尔大学McGill University的三位学生Alan Emtage、Peter Deutsch、Bill Wheelan发明了Archie据称这个名称来自于“Archive档案文件”的缩写。当时的Internet可以提供诸如FTP等文件信息服务然而用户却缺乏一种直接查询FTP文件所在地址的工具。而Archie恰恰可以自动索引Internet上匿名的免费FTP文件信息并提供一种根据文件名称查询文件所在FTP地址的方法。因此Archie被称为现代搜索引擎的祖先。然而客观的讲它并非一个真正的搜索引擎。原因有两个一是它只能搜索FTP文件资源并不能获取诸如网页等其他类型的文件资源因此它其实是世界上第一个FTP搜索引擎二是它没有机器人Robot程序不能象今天的搜索引擎那样快速有效的抓取Internet上的网页文章内容相反它使用的是一个基于脚本的文件名称收集器并通过正则表达式来匹配用户查询与文件名称来实现查询并通过文件列表的方式提供信息查询结果。 2World wide Web Wanderer 现代搜索引擎之所以可以查询网页信息是因为它具有一个被称为机器人Robot的程序所谓机器人程序是指可以连续不断的自动获取Internet上所有网页信息的一种程序。World wide Web Wanderer其实并不能算是搜索引擎它只是世界上第一个机器人程序由美国麻省理工学院MIT的马泰·格雷Matthew Gray于1993年6月开发。它通过网络自动遍历方法来统计Internet上的服务器数量所以可以追踪Internet的发展规模直至后来还可以专门用于获取Internet上网页的URL信息所有的信息都被存入数据库名字叫Wandex。由于对于性能考虑的不是太多这个机器人程序可以在一天内连续的对同一网页进行多达几百次的遍历因而会造成被遍历系统性能的严重下降。虽然马泰·格雷很快修复了这一问题然而这次事故却给人们带来一个疑问我的站点如果被别的机器人程序遍历的话是不是会引起性能的下降直到今天搜索引擎在机器人设计方面仍然存在着这样的挑战。今天依然可以看到MIT网站上有关的网络统计历史数据网址为http://www.mit.edu/people/mkgray/net如图3. 2所示图3. 2 MIT网站上关于World wide Web Wanderer的信息截取于2010-3 3Veronica和Jughead 之所以把这两个搜索引擎放在一起是因为它们的功能很相似出现的时间也很接近。Veronica是由美国内华达大学University of Nevada的系统计算服务小组System Computing Services Group于1991年开发。和Archie不同的地方在于Veronica只对存在于Gopher上的普通文本文件进行查询。随后出现的Jughead也具有类似的作用据称这个名称来自于“Jonzys Universal Gopher Hierarchy Excavation and DisplayJonzy的统一Gopher层次性挖掘和显示工具”。有趣的是后人常常把Archie称之为搜索引擎之父而把Veronica称之为搜索引擎之母。不过这些工具都已经不复存在然而人们依然可以在Internet上看到一些遗留下来的服务如图3. 3所示图3. 3 某站点展示的几个大学所提供的Veronica服务截取于2007-9 4ALIWEB ALIWEB是个划时代的搜索引擎借助它人们首次可以对WWW网页进行全文查询。它是由马汀·考斯特Martijn Koster于1993年10月开发名称含义是“类似于Archie的Web索引Archie-Like Indexing of the Web”它相当于Archie的Web版本。但是ALIWEB没有自己的机器人程序相反它却要求愿意被ALIWEB收录的网站网管主动提交自己网站的网页索引信息这样做的好处在于克服了机器人程序带来的带宽消耗同时网管可以自主的描述网页内容。但缺点也是显而易见的很多网管并不知道如何来做这个事情甚至都不知道是否需要这样做所以ALIWEB的网页数据库规模一直不大。ALIWEB的网址为http://www.aliweb.com今天依然还在运行主页界面如图3. 4所示图3. 4 ALIWEB搜索引擎的主页界面截取于2010-3 马汀·考斯特并没有停止对搜索引擎技术的研究他后来还成为了机器人拒绝协议Robots Exclusion标准的主要设计者。通过机器人拒绝协议网站可以告知搜索引擎哪些信息是可以被搜索引擎机器人程序所遍历的而哪些是不可以遍历的。借助这个协议人们就可以更好的在信息公开性和保密性之间取得一种平衡。这个协议现在已经成为现代搜索引擎的标准功能之一。马汀·考斯特的个人主页网址为http://www.greenhills.co.uk/mak/mak.html如图3. 5所示图3. 5 马汀•考斯特的个人主页截取于2010-3 1.1.1.2 基于爬虫的搜索引擎爬虫Crawler是从搜索引擎机器人程序发展而来。虽然两者在功能上很相似但是爬虫程序却可以通过分析遍历来的网页中含有的网页链接信息自动获取下一步需要遍历的网页这个过程可以自动的持续进行下去。爬虫是个非常形象的称呼也有人称之为蜘蛛Spider它们都是一个意思真像Internet上的一个蜘蛛爬虫自由的跑来跑去抓取所能获得的各种网页信息。爬虫程序要想能够抓取到所有的Internet网页信息需要有个假设前提那就是Internet上的所有网页都相互链接。事实上这并不可能。不过探讨这个问题意义不是很大尤其在Internet上网页数量规模已达万亿级的今天。人们更关心能否快速找到一些最想要的信息资源而非全部的信息资源。 1994年在搜索引擎发展历史上发生了很多具有里程碑意义的事件那一年各种基于爬虫的搜索引擎都纷纷出现彻底的改变了Internet的信息环境状态。 1JumpStation、The World Wide Web Worm和RBSE 到了1993年底很多基于爬虫的搜索引擎开始出现其中比较著名的有三个一是英国苏格兰大学Scotland University开发的JumpStation它可以自动收集网页的标题等信息但是随着网页数量的增加该搜索引擎却不能很好的适应这种变化性能变得很差最终停止了运行二是美国科罗拉多大学University of Colorado的奥利弗·麦克布莱Oliver McBryan开发的“The World Wide Web Worm”字面意思是万维网蠕虫它可以自动收集网页的标题和URL等信息而且它也是第一个解析超文本信息的搜索引擎三是美国航空航天局NASA开发的RBSE意思是基于存储库的软件技术设备The Repository-Based Software Engineering。它是第一个能够索引Web网页正文的搜索引擎也是第一个能够在搜索结果排列中引入查询词语相关度概念的搜索引擎。这和前两种搜索引擎不同它不再简单的只根据找到匹配网页信息的先后次序来排列搜索结果而是利用网页链接分析重新设计新的结果网页排序算法因此可以把用户最想要的相关网页放置在搜索引擎结果的最前面。现在这些搜索引擎都早已停止了服务但是后来的搜索引擎基本上都采用了基于爬虫的网页信息获取方法。 2Excite Excite是一个非常有代表性的搜索引擎它是由美国斯坦福大学Stanford Unviersity6名本科生在1993年2月研发的一个项目Architext发展而来。最初这些学生认为可以通过对网页中的词语关系进行统计分析来提高查询的效果因此他们在引入风险投资后就研发了Architext系统。到了1993年中期他们发布了一个供网络管理员可以在自己网站上使用的查询软件版本称之为“Excite for Web Servers”。到1999年Excite被一个名叫Home的宽带运营商以65亿美元收购因此搜索引擎也改名为ExciteHome。从此ExciteHome开始侧重于宽带市场在搜索引擎方面也就没有更新的技术出现。好景不长ExciteHome于2001年10月破产2002年5月被InfoSpace公司以1000万美元收购。今天Excite仍然还在运营不过它已经改用Dogpile来提供元搜索引擎服务。Excite主页如图3. 6所示图3. 6 Excite搜索引擎的主页界面截取于2010-3 Excite搜索引擎有两点非常引人注目一是在商业上它最早提出“免费让人搜索用广告收入来补贴”的搜索引擎盈利模式这在当时是比较新的理念二是在技术上Excite一直以概念搜索闻名。所谓概念搜索是指搜索引擎可以理解用户查询词语的语义含义并进行自动语义扩检[2]来推荐更多的查询内容。当然受限于技术发展这种概念检索的功能并非十分强大。图3. 7展示了在Excite中查询“apple”的界面在窗口的右边显示了一组扩展的查询词语如“Apple Store苹果用品商店”甚至还有“Banana”等水果类词语。图3. 7 Excite所提供的概念检索截取于2010-3 3WebCrawler WebCrawler是美国华盛顿大学University of Washington计算机科学系的学生布赖恩·平克顿Brian Pinkerton于1994年4月20日创建虽然它最早只是从一个非正式学术研讨会上的小型项目发展而来所以最初亮相时只包含来自6000个服务器的网页内容但它却是世界上第一个可以对遍历网页的全部文字内容进行索引的搜索引擎。在此之前搜索引擎只能提供网页URL和网页摘要来供用户查看查询结果其中网页摘要一般来自人工评论或者是由程序自动抽取网页正文的前若干个词语来组成效果可想而知。所以如此强大的全文索引能力引发了巨大的访问流量据称当时的华盛顿大学校园网络几乎因此崩溃。 1995年美国在线收购了WebCrawler。1997年Excite又把WebCrawler买走此时的美国在线就开始使用Excite作为它自己搜索项目NetFind的技术提供商。随着Excite的风光不再今天的WebCrawler已改用Dogpile来提供元搜索引擎服务。网址为http://www.webcrawler.com主页如图3. 8所示图3. 8 WebCrawler搜索引擎的主页界面截取于2010-3 4Lycos Lycos的名字起得非常好它来自于拉丁文单词“Lycosidae狼蛛”狼蛛和一般蜘蛛最大的区别就是不结网而是直接追随猎物捕食。这个形象有力的名称确实表达了Lycos遍历网页的强大能力事实上它也是搜索引擎历史上的代表作之一。它由美国卡耐基梅隆大学Carnegie Mellon University的博士生迈克尔·墨登Michale Mauldin于1994年7月在匹兹堡创建和其他美国搜索引擎不太一样的地方在于它是早期唯一诞生于美国东部的搜索引擎而其它的搜索引擎则都在西部的硅谷创建。从技术上看Lycos能够提供网页结果排序、查询词语的前缀匹配、邻近位置词语查询和自动网页摘要等一系列功能。在1994年10月用户通过当时最为流行的航海者浏览器查询“surf”[3]相关结果时Lycos是排名第一的搜索引擎结果。当然它的最大特点仍不是这些。正如Lycos名字暗示的那样Lycos遍历网页的能力非常强这才是它的最大特点而这一点在Internet刚开始发展的年代时无疑非常吸引人。据报道1994年7月20日Lycos就可以遍历54000篇网页到了1994年8月则达到39.4万篇1995年1月达到150万篇1996年11月更达到6千万篇网页超过了当时任何一款搜索引擎所能收集的网页量。但是客观的讲Lycos的搜索引擎技术并不是最好。不过Lycos在商业上也做的不错如很早就开始投资做社区网站网络广告也经营的不错这些成功掩饰了Lycos技术的不足。Lycos后来似乎意识到了这一点它收购了一家广受好评的搜索引擎Hotbot而Hotbot后台使用的是Inktomi搜索引擎的技术Lycos希望通过此次收购来提升自己的技术水平。但是这也使得Lycos一直需要维持着两个搜索引擎的技术平台。可能是Inktomi的技术确实比较先进直到最后它全面改用Inktomi的搜索技术。不过由于受到Yahoo和Google的竞争Lycos逐渐衰落最终在1999年4月停止了服务改由Fast搜索引擎来提供服务。网址为http://www.lycos.com主页如图3. 9所示图3. 9 Lycos搜索引擎的主页界面截取于2010-3 5Infoseek Infoseek也诞生在那个奇妙的1994年。Infoseek的起点比较高因为它所使用的搜索技术来自于美国马萨诸塞大学University of Massachusetts而在全美高校中马萨诸塞大学的信息检索技术可以名数一流。但是设计完成之后设计师还是发现无法适应如此多的Internet网页处理要求因此聘请一位名叫威廉·张William I. Chang的中国台湾设计师进行了改进改进后的技术平台被称为Ultraseek。该平台较前者而言不仅在处理速度上而且在查询结果的相关度方面都比较优秀。事实上后来的Infoseek也确实因为相关度算法好而闻名。同时它还允许网站管理者提交自己的网页来进行实时索引该项功能非常吸引人不过Infoseek也同时成了搜索造假者[4]Search Spammer的天堂很多网站管理者利用此项功能来恶意提升自己网站的搜索结果排名和被搜索的次数。不过这些技术创新并没有真正的带来巨大进步。但是Infoseek不断增强用户界面的友好性同时提供大量附加服务以吸引用户使用。最为重要的是1995年12月Infoseek连说服带花钱让网景Netscape公司不再使用Yahoo作为默认的搜索服务提供商也就是说当用户点击航海者浏览器的搜索按钮时默认弹出Infoseek的搜索引擎。但是随着1999年被迪斯尼Disney公司收购Infoseek最终沦落为Go.com网站做娱乐方面的索引和搜索服务从此在技术的革新越来越少。在2001年2月Infoseek终于停止了自己的搜索引擎改用Overture的搜索服务。有趣的是百度创始人李彦宏也曾经在Infoseek从事过技术工作但于1999年回国创立了百度。更为有趣的是那个当时改进Infoseek 的工程师William I. Chang后来认识了李彦宏并于2006年12月6日加盟百度成为百度首席科学家。Infoseek的网址为http://go.com主页如图3. 10所示图3. 10 Infoseek搜索引擎的主页界面截取于2010-3 6AltaVista 可以毫不夸张的说凭借大量的创新功能AltaVista就是早期搜索引擎中的“Google”它不论是在软件功能上还是硬件条件上都达到了那个时代的顶峰在很多方面对现代搜索引擎都产生了深刻的影响。 AltaVista是由美国数字设备公司Digital Equipment CorporationDEC研发于1995年12月面世。从硬件条件来看DEC公司本身就是生产计算机设备的公司凭借DEC强大的Alpha芯片运算能力AltaVista可以运行在当时最为先进的计算机上因此运行速度非常快。从软件功能上看AltaVista搜索引擎的功能也非常多如AltaVista第一个允许用户使用句子来进行自然语言查询第一个支持和实现布尔查询能对不同格式的文档、多媒体信息甚至多国语言的网页进行查询。同时AltaVista还是第一个允许用户自主增删网页索引信息的搜索引擎更新的信息最快可以在24小时内上线。另外AltaVista还能查询有链接指向某个特定网页的所有其他网页该功能称为链入检查Inbound Link Check这个功能有助于网站管理者了解自己站点受人关注的程度显然这种被其他网页建立的链接越多自己网页的受欢迎程度相对也就越高。在界面上AltaVista还提供了大量的易用帮助提示信息以方便用户使用。 1997年AltaVista发布了一个图形演示系统LiveTopics它采用一个图形化的界面来整理搜索引擎的返回结果从而方便用户找到所需内容界面如图3. 11所示图3. 11 LiveTopics系统的界面这些技术都令人刮目相看。然而由于管理混乱和竞争者的不断增多AltaVista逐渐在进入21世纪以后走了下坡路。2003年2月18日Overture收购了AltaVista随后Yahoo又收购了OvertureAltaVista因此成为了Yahoo搜索系统的实验平台也为Yahoo推出自己的搜索引擎打下了必要的技术基础。AltaVista的网址为http://www.altavista.com主页如图3. 12所示图3. 12 AltaVista搜索引擎的主页界面截取于2010-3 7Inktomi Inktomi的正确念法是“Ink-to-me”它来自于美洲印第安人传说中的一个蜘蛛魔法师据说给人类带给了文化和知识。Inktomi是由美国加州伯克利分校University of California Berkeley计算机教授埃里克·布鲁尔Eric Brewer和他的博士生保罗·高瑟Paul Gauthier于1996年1月创建。他们是研究并行处理的专家也希望以Inktomi来证明他们所提出的并行算法是有效的。但是此时的Internet搜索引擎已经群雄并起要想和它们正面交锋难度很大。所以Inktomi创建者决定只做技术提供商并在1996年5月20日开始为Hotbot提供服务。事实证明Hotbot很受欢迎它声称每天能遍历1千万篇以上的网页同时还大量运用cookie来储存用户的设置信息以提供个性化的查询服务。在商业运行模式上Inktomi还提出了很多直到今天依然还在沿用的概念如“Search Submit付费提交”、“Index Connect付费索引”、“Web Portal SolutionWeb门户解决方案”和“Enterprise Search企业搜索”等。到了1999年Inktomi 达到了鼎盛成为了诸如Yahoo和微软MSN搜索引擎在内近一百多个大网站的搜索后台技术提供商。随后Hotbot被Lycos收购Yahoo也转用Google作为搜索技术提供商这对Inktomi是个巨大打击不断流失的客户和影响力开始使得Inktomi走向了下坡路。Inktomi于2002年12月23日还是被当年抛弃它的Yahoo以低价收购。在此之前Yahoo一直在使用Altavista作为后台技术提供商。Inktomi网址为http://www.inktomi.com主页如图3. 13所示图3. 13 Inktomi搜索引擎的主页界面截取于2007-9 Inktomi的最终失败从一个方面反映了搜索引擎厂商必须要正视的问题那就是究竟应该直接面对用户树立品牌还是甘当无名幕后英雄。事实证明要想取得市场的成功搜索引擎必须及时转型尽快走到台前。后来的Google和百度则采取了正确的转型路线成为了现代搜索引擎的巨头之一。 1.1.1.3 基于分类目录的搜索引擎前文所述的搜索引擎多是采用爬虫方式来获取网页信息同时在查询界面上多是采用输入查询词语的方式来直接获取网页结果通常我们称这种方式叫全文查询Full-text Search因为网页只要在任何位置上含有用户的查询词语就可以被命中。与此相对的还有另外一种有效的查询界面设计方法那就是Web目录Web directory也称为“分类目录”或者“网页目录”。它采用层次性的目录组织体系将所收集的网页分门别类的归入不同的子目录中用户按照目录提示可以逐层定位找到自己所需的内容。采取此类方法实现的搜索引擎和信息查询站点也有很多。 1Virtual Library 发明WWW访问方式的蒂姆·伯纳斯·李Tim Berners Lee就于1991年利用WWW方式组织过一个Web目录站点称为虚拟图书馆Virtual Library于是它被看成是世界上最早的Web目录站点。不像一般的商业站点这个站点是由一群志愿者维护的志愿者分别根据自己所了解的学科知识领域给出相应目录下的推荐网页结果所以体系不大但是收录的网页质量却较高。网址为http://vlib.org.uk主页如图3. 14所示图3. 14 蒂姆•伯纳斯•李创立的虚拟图书馆Virtual Library截取于2010-3 2Galaxy 1994年1月Galaxy在美国得克萨斯大学University of Texas创建最早的名称是EINet Galaxy。在创建之初Galaxy主要面向电子商务的大型目录指南服务。1995年4月Galaxy由一个研究项目转变为一个商业项目1997年被网络安全公司CyberGuard收购1998年9月CyberGuard又把Galaxy买给美国健康网AHN.com1999年5月Fox/News公司介入Galaxy。直到2000年5月几经变故的Galaxy终于成为一个独立的站点由TradeWave公司负责。 Galaxy是一个著名的Web目录搜索引擎这个目录体系首先按照主题分类各主题目录再依字母顺序排列大主题下分有小主题因此是个较为综合全面的Web目录体系。同时在内容上包含了较多的学术性和专业性知识内容非常丰富。令人注意的是Galaxy除了可以提供Web网页查询功能外还能提供当时还在流行的Telnet和Gopher环境下的信息查询功能。其实在1994年当时Internet上的Web网络还很小小到似乎没有必要去建立Web目录而事实上Galaxy创建的一个主要原因也就是提供一种Gopher信息的查询功能而Gopher采用的层次型菜单结构非常需要同时也非常适应Galaxy所提供的目录体系。它的网址为http://www.galaxy.com主页如图3. 15所示图3. 15 Galaxy搜索引擎的主页界面截取于2010-3 3Yahoo雅虎 Yahoo和Google、Bing[5]已经成为当代全球三大著名搜索引擎。事实上它也是这三者当中资格最老的一个。 90年代初美国斯坦福大学Stanford Unviersity电机研究所攻读电机工程博士学位的美籍华人杨致远Jerry Yang和大卫·费罗David Filo和其他学生一样开始喜欢上刚出现的Internet。不过他们却有一个特殊的爱好那就是他们经常将自己收集到的一些较好的网页内容链接在自己的个人网页上。渐渐的他们自己的网页在斯坦福大学内部开始小有名气人们称呼他们的网页为“杰里和大卫的万维网向导JerryDavids Guide to the World Wide Web”。根据这些已有的经验和前期的基础杨致远和大卫·费罗于1994年4月使用学校的工作站创建了一个网页目录查询系统称之为Yahoo。刚开始这个网页目录就已经收集了超过1000不同站点的网页信息。较基于爬虫的早期搜索引擎而言 Yahoo所收集的网页内容能够含有人工编撰的说明信息可以极大方便用户的使用而基于爬虫的搜索引擎只能通过采集网页URL和标题之类的简单内容来作为网页内容的提示信息显然不论是在网页体系的组织上还是在网页内容的说明上都难以做到和Yahoo同样的效果。关于Yahoo这个名称的来历也是众说纷纭很多人认为它是“另一个层次性的民间先知Yet Another Hierarchical Officious Oracle”的缩写词这可能借鉴于UNIX系统中一个表示网络查询技术的缩略语YACCYet another compiler compiler另一个编译器代码生成器。但是根据杨致远等人的说法Yahoo的“Ya”来自于杨致远的姓他们曾利用韦氏词典设想过Yauld、Yammer和Yardage等一系列可能的名字。之所以选中Yahoo是因为在《格利佛游记》中Yahoo是一种粗俗和不懂世故的人形动物它具有人的种种恶习他们反其义而用之认为在强调平等权利的互联网上大家都是乡巴佬为了增加褒义色彩又后面加上一个感叹号于是就有了Yahoo。事实上Yahoo的成功离不开它的幸运。当时有一家著名Web浏览器公司网景Netscape生产一种称为航海者Navigator的Web浏览器软件该软件非常流行人们都在使用它去访问Web网络。为了增强网络信息查询的快捷性该浏览器的创始人马克·安德森Marc Andreessen看中了Yahoo并且在1995年1月他把航海者浏览器上一个最为重要的网络查询按钮默认指向了Yahoo目录。可以说借助航海者浏览器的平台Yahoo很快在Internet上树立了名声。1995年4月Yahoo还吸收到了曾经给Apple、Oracle和Cisco投资过的Sequoia公司接近200万美元的投资。此时Yahoo已经成为Internet上的一个重要的门户站点。然而通过人工组织方式获取的Web目录结构不可能适应网络快速增长的发展要求因此Yahoo先后使用了诸如Altavista和Inktomi等搜索引擎来为自己提供基于关键词的全文检索服务。2002年10月9日Yahoo开始不再使用Web目录作为主要搜索工具而是使用另外一家后起之秀Google来为自己提供关键词查询服务并成为真正的全文搜索引擎。正如当年Yahoo借助航海者成功一样Google最终也借助Yahoo成名并敢于和Yahoo抗衡。此时的Yahoo只能通过收购的方式来获得较快的发展2002年12月23日收购inktomi搜索引擎2003年7月14日收购包括Fast和Altavista在内的Overture公司。直到2004年雅虎中国在中国内地终于推出了自己独立研发的搜索引擎“一搜”。2004雅虎中国推出独立的搜索门户网站一搜网“一搜天下小”的广告语让人侧目。今天已经改名为雅虎全能搜网址为http://www.yahoo.cn主页如图3. 16所示图3. 16 雅虎全能搜的主页界面截取于2010-3 不过Yahoo的Web目录仍然还是一个重要的网络信息查询工具它的设计结构经过不断的调整已经非常成熟和易于使用。Yahoo的Web目录网址为http://dir.yahoo.com网页如图3. 17所示图3. 17 Yahoo的Web目录主页界面截取于2010-3 当然这个Web目录也渐渐的融入了更多的特点。尤其是随着名声的增大Yahoo早已开始对收录的商业站点收费2007年的收录报价是每年299美元。但是对于那些真正著名的站点而言Yahoo还是采用免费收录的方法。 4ODP开放目录 ODP是Open Directory Project开放目录项目的简称是由瑞奇·斯克伦塔Rich Skrenta于1998年和合伙人一起创办的。这个目录体系结构不仅可以提供一种Web网页目录的查询方法而且这个目录体系的内容还是由全球各地的志愿者集体编撰而成至今已经成为全球最大的Web目录因此那些本来需要等待被Yahoo目录收录的网站现在终于找到了新的地方。更为重要的是人们还可以免费的下载整个目录体系以供自己的科学研究。1998年11月网景Netscape公司收购了ODP。随着网景公司自己在同年同月被美国在线AOL以45亿美元收购ODP后来归入了AOL的名下。ODP的网址为http://www.dmoz.org主页如图3. 18所示图3. 18 ODP的Web目录主页界面截取于2010-3 5专业的Web目录站点如果读者细心你就会发现上述这些Web网页目录的结构有时科学性并不强如图3. 19显示了部分雅虎中文分类目录的内容图3. 19 部分雅虎中文Web目录的截图截取于2010-3 显然“音乐”属于“艺术”无论如何将两者并列作为同一个目录下的子内容项并不合适更不必说“军事”是否应该放入“休闲娱乐”目录下了。但是我们要注意这些Web目录并不在意科学性相反它们更加在意易用性。一般的Web用户可能并不十分了解目录的层次结构他们往往希望能够在最短的时间内找到自己所要的目录项所以雅虎中文所设计的这些目录往往是集中了最为流行常见的目录项并且以一种极为方便和直观的方式来展示目录结构。然而对于那些诸如图书馆员等从事专门信息资源管理的专家而言他们可能并不满意这样的结构为此还有一些更为专业的搜索引擎Web目录。克伦·施耐德Karen G. Schneider创办的“图书馆员Internet索引Librarians Internet IndexLII”就是一个专门面向图书馆员的专业Web目录站点该目录的结构具有较为完善的组织科学性强质量较高。一般而言那些具有收费收录Paid Inclusion服务的Web目录通常都不具备这些特点。LII的网址为http://lii.org主页如图3. 20所示图3. 20 LII的Web目录主页界面截取于2009-4 后来LII与另外一家著名的专业Web目录“Internet公共图书馆Internet Public Library”合并组建了ipl2网址为http://www.ipl.org。再如Google搜索引擎也经常充分利用图书馆员的反馈信息。它提供了“Google图书馆员报道Google librarian newsletter”的消息服务经常收集世界各地图书馆员的意见和问题以此来改进Google的搜索功能并且定期向他们提供Google服务的相关原理和改进说明相关内容的介绍网址为http://www.google.com/librariancenter/newsletter/0512.html如图3. 21所示图3. 21 Google图书馆员报道的官方介绍截取于2010-3 6主题Web目录上述这些综合Web目录还有很多。不过我们也要能够看到它们存在的问题原因很简单如果目录小价值不大难以吸引用户使用如果目录大相关的人工整理成本太高维护困难。所以和综合Web目录不同主题Web目录采取了不同的设计策略它只面向诸如商业和经济等特定领域从而取得了目录规模和运转成本之间的一个平衡。通常人们把这些主题Web目录也称为垂直Web目录Vertical Web Directory、面向局部的Web目录Locally Oriented Directory。如Business.com就是一个专门面向商业领域的主题Web目录它的商业目录结构比较有特色涵盖了商业和经济领域的相关重要内容。网址为http://www.business.com主页如图3. 22所示图3. 22 Business.com的Web目录主页界面截取于2010-3 1995年成立的Looksmart也是一家Web目录站点早期曾经通过增加网页收录数量和规模来和Yahoo目录竞争。显然这一招并不十分成功2002年Looksmart 发明的一种新型的盈利模式为它的快速增长提供了基础。在此之前几乎所有的Web目录站点都是采取较为固定的付费收录策略如每月只需付多少钱可以收录到哪个目录中等等。然而Looksmart采取了按点击付费Pay Per Click的收费方法[6]也就是说用户点击该收录网页次数越多相应的收录费用也就越高这对被收录网页而言显然是一种很好的激励措施愿意为较高的点击率而支付更多的费用。在内容上Looksmart不仅在自己的目录结构中收录网页索引而且还根据主题分门别类的收录不少很有价值的内容资源应该是个很不错的主题Web目录。然而这些收录的内容相关性却因为各种原因而逐渐变差后来在很大程度上又损害了Looksmart的声誉。然而在商业上发生了一连串的失败给Looksmart带来了越来越多的不利影响。1998年Looksmart以2000千万美元收购一家非盈利的Web目录站点Zeal来扩展自己的目录规模但是到了2006年3月28日Looksmart却关闭了这个Zeal目录。2002年3月Looksmart还试图通过收购WiseNut搜索引擎来获得发展结果也不理想。不过最大的问题还不止这些。Looksmart曾经通过加盟诸如MSN等门户站点通过付费收录方式来获利。然而Looksmart一直以来建立的良好信誉却随着这个合作而逐渐变差而且Looksmart在商业上也逐渐越来越依赖于微软的MSN搜索引擎。到了2003年微软宣布抛弃与Looksmart的合作对Looksmart来说这无疑是个致命的打击。后来Looksmart开始改用一个称为Furl的社会化书签Social Bookmarking管理站点来期望获得新的访问流量增长现在它主要为广告商提供按点击付费的搜索网络平台服务。它的网址为http://www.looksmart.com主页如图3. 23所示图3. 23 Looksmart的主页界面截取于2010-3 综上所述Web目录确实具有不少优点所以在搜索引擎领域中一直都是一个不可或缺的角色。连Google都利用ODP目录推出了自己的Web目录站点网址为http://dir.google.com主页如图3. 24所示图3. 24 Google的Web网页目录主页界面截取于2010-3 然而我们必须要看到这种方式并非现代搜索引擎的主流。由于Web网页目录需要大量的人工编撰工作所以维护成本很高缩放性很差。而且网页目录规模通常都不大相对于关键词查询而言我们可以认为虽然关键词查询可能查准率不高但具有更高的查全率而网页目录查询则具有更高的查准率查全率则较低。而且这种目录结构还存在一个不太引人注意的缺点那就是它要求用户首先了解网页目录结构否则用户将很难使用。举个例子用户想查询“蓝牙”的相关网页如果他根本不知道这是一种无线通讯技术的话那他就根本找不到目录的入口即便用户知道这是无线技术恐怕也很难在较短的时间快速定位到所要的子目录究竟“无线通讯技术”在“数据通讯”目录下呢还是在“硬件”目录下呢而且更为麻烦的是如果用户认为它应该在“数据通讯”目录下而目录编撰者却把“蓝牙”归入“硬件”目录中也就是说良好的目录使用效果需要用户和编撰者对目录结构具有一致的思路和理解事实上这很难办到因此就会导致用户难以理解甚至用户会认为在这个目录中根本找不到自己所需的内容。所以现在比较流行的Web目录往往采取主题化策略如只针对新型站点资源进行收集和整理另外博客目录Blog Directory、社会化书签目录等等也往往具有不错的应用效果。 1.1.1.4 当代著名搜索引擎从2000年左右起一批新型搜索引擎企业逐渐出现其中很大一部分搜索引擎至今还在提供服务并且成为了主导当代Internet搜索引擎市场的重要力量。它们不论是在技术实力上还是在商业运营模式上都比它们的前辈们取得了更多的成功和突破。从技术上看虽然基于爬虫或者Web目录的传统搜索引擎技术仍然还在发挥作用但是各大新型搜索引擎所使用的核心技术已经完全跳出了传统的框架纷纷提出自己的新技术和新方法以期在功能和效果赶超过去的元老。从商业运营模式上看搜索引擎已经成为现代门户网站中最为常见的免费服务之一而且也是各大网站吸引用户访问的主要功能靓点。搜索引擎也从诸如竞价排名等传统服务开始转型推出一些新型的盈利模式如Google所推出的AdSense 可以提供与网站的内容相匹配的广告而网站可以在访问者点击这些广告时获得收益而Google的AdWords则规定仅当有用户点击网站在Google联网中的广告时网站才需支付相应费用。这些形式具有极大的创意也改变了人们对搜索引擎的使用习惯和认识。 1Google Google已经成为现代Internet上最大的搜索引擎之一而且在业务上已经开始超越搜索引擎本身开始向移动开发、应用软件和操作系统等方向前进成为可以和微软等大公司抗衡的重要力量。不过这个搜索引擎在1998年10月之前仅仅只是个美国斯坦福大学Stanford Unviersity的一个小型学生项目。1995年斯坦福大学计算机系博士生拉里·佩奇Larry Page和塞吉·布林Sergey Brin开始尝试设计一个名称为BackRub的项目。严格说来BackRub只是一个可以统计分析网页词语信息的爬虫程序。不过佩奇和布林都认为这个项目可以做下去他们于1997年9月15日注册了google.com的域名。Google这个名称据说来自于“googol”[7]单词意思是10的100次方这个巨大的数象征着Google能够处理海量的Internet网页信息。1999年2月Google完成了从Alpha版到Beta版的升级[8]。通常Google公司把1998年9月27日认作是自己的生日每年这个时候Google搜索引擎的主页Logo都会变成一个祝贺生日的模样。 Google和前期的搜索引擎相比采取了一系列新技术如用于网页排序的Pagerank算法等其实正是这个基于网页链接分析的算法才使得Google具有了和以前搜索引擎完全不一样的使用效果。另外通过十几年的发展它还是开发了一大批让人耳目一新的服务如近几年所广泛使用的地图搜索和移动搜索等。不过正如所有成功的搜索引擎一样Google的成功也离不开商业上的努力。在2000年之前Google的发展和推广一直都不是很快。直到2000年开始为Yahoo提供后台搜索技术支持之后Google才凭借Yahoo快速发展起来正如当年网景提携了Yahoo一样。在2002年到2003年间Google连续两年被评为互联网世界第一品牌。从这以后Google的发展就进入了快速增长期。不过中国一直是Google未能始终取得辉煌的市场。事实上Google直到2004年才进入中国内地。一个明显的事实就是直到2005年4月29日Google才花费巨资赎回了google.com.cn和google.cn的域名。这桩交易也是国内有史以来跨国公司第一次以高价赎回与其品牌密切相关的域名据估计为了这19个字母Google支付的费用应在百万元之上平均每个字母价值超过5万元[9]。在此之前google.com.cn域名的拥有者却是一个“创可贴”论坛如图3. 25所示图3. 25 google.com.cn域名的前拥有者“创可贴”主页界面截取于2004-9[10] 这种情况并非少见。直到2010年4月还有人收藏着百度的美国域名站点http://www.baidu.us期待着类似于Google故事的财富奇迹。这事实上也是一种一直以来始终存在的Internet域名收藏服务 2006年4月Google首席执行官埃里克·施密特来到中国将Google中文命名为“谷歌”并开设了一个号称最短的域名“www.g.cn”。而遗憾的是到了2010年3月Google终于宣布退出中国内地市场但是Google搜索引擎的强大搜索能力确实为中国的其他搜索引擎提供了一个良好的学习范本。Google的网址为http://www.google.com主页如图3. 26所示图3. 26 Google搜索引擎的主页界面截取于2010-4 2微软搜索引擎读者可以会很奇怪为什么这个标题没有具体的搜索引擎名称事实上微软一直都有自己的搜索引擎而且还不止一个搜索引擎不过这些搜索引擎一直在换。这充分反映了一个问题那就是微软想在搜索引擎领域中有所作为然而始终没有找到合适的突破口。不过即便如此也毫不妨碍微软搜索引擎一直成为世界排名前三的著名搜索引擎之一。微软较早的一款著名搜索引擎是于2004年7月推出的MSN Search可能在中国各大搜索引擎纷纷推出新版本时微软太过于仓促使得这款搜索引擎在刚推出时甚至都没有简体中文版本而只有繁体中文版本网址为http://search.msn.com主页如图3. 27所示图3. 27 MSN Search搜索引擎的主页界面截取于2004-9 到了2006年9月微软改用了Windows Live Search搜索引擎网址为http://www.live.com主页如图3. 28所示图3. 28 Windows Live Search搜索引擎的主页界面截取于2009-3 不论是哪一款当时的市场反应始终平平。为此微软先后又推出若干个昙花一现的搜索引擎版本如“杜威女士Ms. Dewey”就是一款号称交互式搜索引擎的奇妙作品它基于Windows Live Search搜索引擎的技术基础但是在界面上使用Flash动画创造了一个虚拟女性助手背景是一个现代城市街景。这个助手制作代价不菲据说花了3天时间聘请明星雅尼娜·加万卡Janina Gavankar真人录像得到600多个视频片段并随机使用以使得动画人物可以产生丰富多变的姿势和表情她甚至可以在用户没有任何输入的闲暇时刻中拿出道具来玩耍。最为重要的是她可以使用交互式的声音提醒并告知用户查询的内容和结果[11]。网址为http://msdewey.com主页如图3. 29所示图3. 29 Ms. Dewey搜索引擎的主页界面截取于2009-3 后来微软还采用诸如通过查询关键词来猜字谜并赢取奖励的方法来吸引用户使用最为夸张的是在2008年11月用户还可以通过微软搜索引擎购买惠普电脑并获得40%的现金返还。然而这些方法似乎都没有效果。到了2007年3月微软在Internet搜索引擎市场的占有率已经跌至两年前的水平。不得已微软使出了最后的看家本领在2008年1月准备以45亿美元收购Yahoo希望两家合并一起和Google竞争此时的Google已经占据了全球8成多的搜索引擎市场份额。不过收购最终以失败告终。造成这种局面的原因有时很复杂甚至都不一定是技术问题。如微软在线用户商业集团高级副总裁尤瑟夫·迈瑟迪Yusuf Mehdi曾经表示微软搜索服务不受欢迎的部分原因在于品牌不如Google。他进一步举例到微软曾做过用户测试在不知道用户搜索引擎使用偏好的情况下把微软搜索引擎的查询结果加上Google的Logo呈现在用户面前参测用户无一例外地认为这是最好的查询结果。事实上现代搜索引擎技术已有较大的发展用户并不容易区别这些不同搜索引擎技术的不同之处。 2009年初微软开始了一个名叫Kumo的搜索引擎实验项目并准备以此来替代Live Search。Kumo在日语中为“云”和“蜘蛛”的意思。主页如图3. 30所示图3. 30 Kumo实验搜索引擎的主页界面截取于2009-6 这个名称是不是隐含着在云计算年代中的搜索含义我们不得而知但是我们知道Kumo压根就没有正式发布。也许Kumo只是过渡产品最终微软于2009年5月发布了一个成熟的搜索引擎产品Bing这个象铃声的单词据说来自于一名德国百岁老人的姓氏中文名称为“必应”应该为有求必应之义。网址为http://cn.bing.com主页如图3. 31所示图3. 31 Bing搜索引擎的主页界面截取于2009-6 3Ask 其实较Google和Bing而言Ask搜索引擎并不算是非常著名但是它的制作创意非常出色。它号称为“自然语言搜索引擎Natural Language Search Engine”。也就是说它允许用户使用类似于口语中常见的问话句子来进行查询因此易用性很强。创建于1997年4月的Ask搜索引擎当时的名称是Ask Jeeves意思是有问题可以询问男仆名称很形象问男仆难道不使用正常的句子吗因此早期的主页上常常有个面带微笑的英国男仆。不过要想提供这种自然语句的查询技术难度很大因此早期Ask搜索引擎使用人工编撰的方法来提供一些常见句子的匹配结果。后来Ask使用DirectHit搜索引擎来提供信息查询服务此时的网页查询结果采用流行度作为主要排序指标。2001年Ask改用Teoma来提供查询服务Teoma最大的特点在于采用网页结果聚类方法来组织主题以方便用户快速得到所需内容。2006年Ask正式从Ask Jeeves更名过来。网址为http://www.ask.com主页如图3. 32所示图3. 32 Ask搜索引擎的主页界面前者截取于2007-9后者截取于2010-4[12] 1.1.2 中国搜索引擎的发展历史之所以说中国搜索引擎而不说中文搜索引擎是因为国外的著名搜索引擎大都在中国设有公司并且营运相应的中文版本搜索引擎如Google在2000年9月就推出了中文版本2005年5月在上海开设了办事处。我们所指的中国搜索引擎专指中国本地企业创办的搜索引擎。事实上中国本地搜索引擎的发展历史要比国外晚的多直到2000以后中国内地的搜索引擎市场才开始获得快速发展。但是作为全球网民最多的国家之一中国一直都是各大搜索引擎厂商关注的重点。但是由于中文处理的特殊性国内搜索引擎虽然起步晚却具有中文处理的先天优势和对中国市场更为了解的特殊能力因此中国本地搜索引擎的发展相当快甚至超越了在中国营运的国外搜索引擎巨头。 1百度百度已经成为全球最大的中文搜索引擎之一。这个诗意的名称来自于宋词名句“众里寻他千百度”巧妙表达了搜寻信息的涵义不过也有人认为它很有禅意。1991年毕业于北京大学信息管理系的李彦宏在获得美国纽约州立大学布法罗分校University at Buffalo, the State University of New York计算机科学硕士学位后并在Infoseek工作期间创建了ESP[13]技术将它成功应用。1996年他还首先解决了如何将基于网页质量的排序方法与基于相关性的排序方法进行结合的问题并因此获得了美国专利。1999年底李彦宏携风险投资回国和其好友徐勇于2000年1月在北京中关村创立了百度Baidu公司。刚起步的时候百度主要为诸如搜狐和新浪等门户网站提供搜索技术服务2001年8月开始正式提供自己的搜索引擎服务。2005年8月5日百度赴美上市成功。另外百度还于2004年8月收购以分类目录为主要特色的国内著名站点“hao123”在Web目录方面开始提供自己的服务。更为重要的是百度还在竞价排名服务等搜索引擎商业模式创新上取得了一定的成果。除此以外今天的百度已经在电子商务和社区搜索等领域开始了更多的尝试。百度的网址为http://www.baidu.com主页如图3. 33所示图3. 33 百度搜索引擎的主页界面截取于2010-4[14] 所谓社区搜索Community Search是指利用某种社会交流平台软件将人们存储在脑海中的知识发掘出来以解决其他用户所要查询的问题也被称为“协同搜索Collaborative Search”。诸如百度的“贴吧http://tieba.baidu.com”、“知道http://zhidao.baidu.com”和“百度Hihttp://im.baidu.com”实时通讯工具都能够提供这种社区搜索服务对于在一个社区里面提出的一个问题由人工参与解答而非搜索引擎通过机器自动算法获得结果。也有人称之为问答式搜索或者在线百科全书等。 2北大天网很多人都不太了解北大天网事实上它也不是商业公司运作的而是由北京大学计算机系网络与分布式系统研究室于1997年10月29日推出的搜索引擎。从实际运行效果来看该款搜索引擎为中国本地搜索引擎提供了大量技术人才而且相关研究室也因此承担了大量的搜索引擎相关学术研究工作取得了不少成绩如北大天网中搜索引擎与互联网信息挖掘组的李晓明、闫宏飞和王继民所著的《搜索引擎—原理、技术与系统》就是一本很好的搜索引擎原理入门教程[15]。北大天网的网址为http://e.pku.edu.cn主页如图3. 34所示图3. 34 北大天网搜索引擎的主页界面截取于2007-9 除了具有一般的网页查询功能外它还具有强大的FTP文件查询能力点击图3. 34中的“文件”链接即可查询FTP文件资源。另外北大天网还拥有一个巨大的“中国Web信息博物馆”它主要收集和展示历史上的中国网页信息内容目前存储的网页数量已达数十亿以上。网址为http://www.infomall.cn主页如图3. 35所示图3. 35 北大天网“中国Web信息博物馆”的主页界面截取于2010-4 国外也有类似于北大天网“中国Web信息博物馆”的站点如“Internet档案Internet Archive”网址为http://www.archive.org如在其中查询某站点的历史网页内容记录如图3. 36所示图3. 36 在Internet Archive站点中查询某站点的历史网页内容页面截取于2009-4 3其他搜索引擎中国本土的搜索引擎还有很多下面对其他搜索引擎简单做一说明。搜狗是搜狐Sohu公司的子公司1996年8月成立的搜狐公司也是最早提供网络信息分类导航服务的网站1998年2月搜狐推出了分类目录搜索引擎是当年Yahoo!搜索引擎对应的中国版本。而搜狗则是搜狐于2004年8月3日专门推出的一款搜索引擎。据称名称来自于2001年电影《大腕》里的幽默台词“他们搜狐我们搜狗各搜各的”。早期的搜狐也做搜索但是自从推出搜狐以后搜狐就加快了搜索引擎开发的进度。另外搜狗在拼音输入等桌面应用程序领域也一直表现不错。网址为http://www.sogou.com主页如图3. 37所示图3. 37 搜狗搜索引擎的主页界面截取于2010-4 搜狗为什么要做拼音呢这与搜索引擎有没有关系呢正如搜狐副总裁王小川所言搜索为拼音服务拼音为搜索服务。一方面从商业层次上看拼音输入法是一种使用面很广的输入法利用这种免费的输入法可以极大的宣传搜狗增加用户对搜狗搜索引擎的了解扩大搜索引擎的知名度另一方面从技术层次上看现代搜索引擎越来越重视对用户行为的理解认为只有最为了解用户需求的搜索引擎才能取得成功。利用人们在使用输入法中的词语组合等输入信息可以有效的提供“线下相对于网络在线访问而言就是不在线的桌面应用环境”用户的需求信息以此来改进搜索引擎反之也可以利用搜索引擎用户的线上查询需求来增强拼音输入法的有效性如可以把当前的热门查询词语组合排在输入结果的前面等。于1997年成立的网易是国内第一家提供中文全文查询服务的门户站点之后经过几次升级并先后和Google和百度在搜索技术有过合作。同时它在创立时就推出了全中文搜索引擎目录服务虽然这不是主要服务内容。网易还曾经拥有和维护着当时唯一的开放式目录体系中文版本类似于著名的ODP这个项目于2006年被关闭了。不过就在2006年底网易推出了自主研发的中文搜索引擎有道测试版并于2007年12月推出正式版本。网址为http://www.youdao.com主页如图3. 38所示图3. 38 有道搜索引擎的主页界面截取于2010-4 虽然以门户服务为主的新浪并非一个专业的搜索引擎但是新浪于1999年2月2日就已经推出了中文搜索引擎“新浪搜索”测试版1999年10月9日新浪还推出了高级搜索所收集的网页内容规模和分类目录的规范程度都比较不错。2000年11月1日新浪又正式推出国内第一家综合搜索引擎即可以同时对多种不同类型的信息内容进行同步查询在用户的一次查询过程中就可以在结果网页上获得包含目录、网站、新闻标题、游戏等在内的各类综合查询结果。2005年6月30日新浪终于推出了专门的搜索引擎——新浪爱问搜索网址为http://www.iask.com主页如图3. 39所示图3. 39 爱问搜索引擎的主页界面截取于2010-4 中搜是由“慧聪搜索”发展而来它是由中国网、慧聪国际等公司共同创办的中国搜索联盟于2002年9月正式改名为“中国搜索”并于2003年8月推出搜索门户后来改称“中搜”网址为http://www.zhongsou.com主页如图3. 40所示图3. 40 中搜搜索引擎的主页界面截取于2010-4 甚至一些其他门户站点如实时通讯软件提供商腾讯也推出了自己的搜索引擎“搜搜”网址为http://www.soso.com主页如图3. 41所示图3. 41 腾讯“搜搜”搜索引擎的主页界面截取于2010-7 除此以外象中国台湾和香港地区都有自己本地的搜索引擎。如由台湾中正大学吴升教授所领导GAIS实验室开发的Openfind搜索引擎成立于1998年1月是台湾最早开发的中文智能搜索引擎采用GAIS实验室推出多元排序PolyRank核心技术今天的业务主要从事搜索产品相关服务网址为http://www.openfind.com。再如中国香港搜索引擎Timway网址为http://www.timway.com。 1.2 搜索引擎的原理与工作机制正如序言所说本书并非技术原理类教程因此并不打算对此话题做过多的讲述。但是通过以往的使用经验表明如果用户对搜索引擎的基本工作机制有一些基本的了解那么用户可以更好的理解现代搜索引擎能够做什么以及不能够做什么同时在使用当中如果出现了问题我们也可以更加容易知道个中原因并有针对性的进行改进从而提高信息查询的效果。因此本节对此问题略作说明。 1.2.1 搜索引擎工作机制从结构上看搜索引擎主要可以分为三个模块分别是网页遍历模块、索引模块和检索模块。下面我们结合搜索引擎的一个典型的工作流程来谈谈它究竟是如何运行的。假设用户打开Google搜索引擎键入“南京财经大学”六个字在耗费大概0.15秒以后用户看到了最终的结果网页其中南京财经大学的主页链接被排在第一位其他几个相关站点分别罗列于下方如图3. 42所示图3. 42 利用Google搜索引擎获取“南京财经大学”的查询结果页面截取于2010-4 这个短短的0.15秒究竟发生了什么呢我们凭借直觉感觉应该是这样的。搜索引擎获取到用户输入的查询词语即所谓的关键词到Internet上去查看每一篇网页内容并判断网页是否与所查询的词语相关然后把找到的网页URL及其相关信息显示给用户即可。这种看起来非常简单的做法其实根本行不通。原因有很多就说一个最为简单的问题那就是搜索引擎如何快速的在如此多的网页中找到用户所需的网页前文已经说明Google搜索引擎在2008年就已能获取到万亿级的网页数量而且据学者Bar-Yossef和Gurevich在2006年采用随机采样方法的研究表明当时的Google搜索引擎大概只能获取到实际Internet上64%的网页[16]。可以毫不夸张的说Internet真是一个海量的网页世界。事实上搜索引擎能够获取的网页URL只会更多。因此在如此多的网页中实时的在每篇网页中逐字逐句的查找关键词显然绝不可能在0.15秒完成。读者可能并不清楚为什么网页数量和网页URL数量并不一致。一般来说一个网页应该具有一个URL一个URL对应一个网页。对于传统的静态网页而言这是正确的。但是对于现在更为常见的动态网页而言一个网页完全可以对应多个不同的URL如下面两个URL http://www.njmars.net/list.asp?boardid4 http://www.njmars.net/list.asp?boardid12 它们都是访问http://www.njmars.net/list.asp网页但是后面跟着的参数并不一样所以读者会发现它们分别打开不同的论坛栏目。为此搜索引擎需要事先做点准备工作就像从一个整理过的图书架可以更快的找到所需要的图书一样。不过搜索引擎的准备工作比较复杂可能得花费它几天到几周的准备时间。在这期间它需要完成两件重要的工作。一是先利用爬虫从Internet上获取尽可能多的网页将其保存在搜索引擎自己的数据库中。这里有两个需要解释的地方一是之所以说是尽可能的多是搜索引擎自己的技术局限性和网页不断增加的现状导致不可能获取全部的网页信息通常爬虫一秒钟也只能获取到不到100个网页信息二是之所以这样做的原因是在获取这些网页后再以它们作为用户查询的依据就不要在用户查询时再去实时查询Internet上的网页内容。具体来看爬虫程序可以从一个或者几个起始网页开始下载这些网页并将网页内容和URL等信息一起保存在搜索引擎自己的数据库中。然后爬虫程序可以从这些网页中进一步得到其他网页的链接再次获取这些超链所对应的其他网页这个过程将不断的进行下去。通常这种过程我们称之为“网页遍历”。由于不可能收集完所有的网页所以搜索引擎通常会在一段时间后或者在满足一定条件时完成这种遍历活动。因此这时我们可以回答一个问题为什么有时候搜索引擎找不到某些已经存在的网页除去用户方法错误等主观原因外常见的一个原因就是搜索引擎可能没有对这个网页进行遍历和进一步的索引因此在利用该搜索引擎进行查询时用户将无法获得该网页的任何信息。二是需要对存储在搜索引擎本地数据库的网页信息进行必要的分析和索引。分析的目的在于解析网页内容如今天的搜索引擎可以查询诸如Word文档和Flash动画等各种常见格式的文件这个功能就需要搜索引擎对收集来的文件信息进行分析才能实现。索引过程也很复杂细节我们可以不必关心不过我们必须理解建立索引的必要性。如果没有索引对于这些数量极大的网页内容如果采用直接扫描的方式仍然不可能在很短的时间内完成用户查询。建立索引好比是图书馆对图书进行重新编码和整理从而可以在较短的时间内找到所需的内容。本书的后面章节将会介绍很多具体的搜索引擎查询方法其实每种方法都可能需要不同的索引来处理所以搜索引擎的索引量非常大。优秀的索引方法可以极大了提高查询速度甚至可以达到在毫秒级的查询响应能力。到此搜索引擎就完成了必要的准备工作开始提供查询服务。在用户输入查询关键词后搜索引擎利用该关键词到索引中去查询对应的网页并将命中的网页URL和诸如摘要等相关信息整理出来。由于可能会命中数以万计的网页结果所以通常搜索引擎只显示部分结果其他的内容放在“下一页”中显示。因此这里又产生一个重要问题把什么网页放在第一页呢又根据什么把什么网页放在第一条呢可以想象应该把用户最想得到的网页结果放在第一页的第一条。这就需要搜索引擎具有相关度排序能力。所谓相关度可以理解为满足用户需求的程度。由于每个搜索引擎的相关度排序方法都不一样所以即便是同一个关键词不同的搜索引擎返回结果也往往具有非常明显的差异。图3. 42所示的Google返回结果把“南京财经大学”学校主页放在第一页的第一条显然是正确的。事实上Google就是因为使用了被称为PageRank的高级网页相关度排序方法才取得比较好的效果才在很短的时间内快速成长为一家著名的搜索引擎公司[17]。而百度创始人李彦宏当年发明的超链分析技术也是这样的网页相关度排序方法。可见对于搜索引擎而言这种网页相关度排序技术非常重要尤其在强调网页结果查准率高的现在更是如此。我们又可以回答一个问题了为什么搜索引擎的有些结果网页打不开此时浏览器会显示“无法找到该页”如图3. 43所示图3. 43 某些通过搜索引擎查询到的不能打开的网页界面截取于2010-4 更为奇怪的是有时打开某些结果网页你会发现这个网页压根就没有你所要的内容。其实造成这些现象的原因可能都是一样。因为搜索引擎遍历和索引网页是需要一定时间也许在当时爬虫遍历网页时这些网页还存在或者还有某些关键词信息但是到用户查询的时候这些网页可能已经被删除这时会出现上述“无法找到该页”的错误或者网页URL还有效但是内容已经被修改所以压根就没有用户现在所要的内容。不过这个问题并非不能解决。搜索引擎结果页面每条命中网页记录后的“网页快照”就提供了一种获取搜索引擎所存储的网页原始内容的能力。在上述情况出现的时候可以通过使用网页快照获取所需内容如图3. 44所示图3. 44 百度搜索引擎中“南京财经大学”命中结果网页的网页快照截取于2010-4 1.2.2 查询结果的显示模式和排序依据同样的查询“南京财经大学”在百度中的搜索结果如图3. 45所示图3. 45 利用百度搜索引擎获取“南京财经大学”的查询结果页面截取于2010-4 和图3. 42所示的Google返回结果相比两者的区别比较明显。不过我们也能看到它们都有一种同样的模式。一般而言每个命中网页都会给出诸如网页URL、网页标题、网页摘要等内容。其中网页标题通常就是一个指向网页URL的超文本而且网页URL还会以绿色显示在网页记录的最底下网页摘要则仅仅是网页内容中含有关键词的一段文字这些内容中含有关键词的部分通常都会红色高亮显示以示强调。除此以外有时搜索引擎还会给出网页更新时间如2010-4-7、网页大小如2K[18]等。再如如果安装了Google的工具栏还能够看到网页的PageRank值等。当然在结果网页列表中最令用户关心的其实还是命中网页的次序这好比是梁山好汉的座次越靠前越说明该结果网页越重要和越相关。前文说过这是相关度排序方法在起作用。不过有一个问题需要回答搜索引擎是根据什么来排序的往往在不同的搜索引擎结果中网页次序的差异非常大即便是同一个搜索引擎的结果都会因为版本不同而有巨大差异。有一个有趣的站点给出了Google英文版和Google中文版的显示结果差异图网址为http://www.langreiter.com/exec/google-vs-google.html如图3. 46所示图3. 46 给出Google英文版和Google中文版在查询“China”时的显示结果差异截取于2010-4 早期的搜索引擎一般都是按照比较传统的方法来对网页进行排序大概有如下几种方法一是按照词语出现的次数即词语频率简称为词频。如果网页A出现了10次“猫”显然比只出现一次“猫”的网页B更能反映与查询词“猫”的相关性。因此如果一个网页含有的查询词语越多一般可以认为该网页和该查询词语的相关度越大。二是按照词语出现的位置。如果网页A在标题中出现了“猫”显然要比在正文中出现“猫”的网页B更能反映与查询词“猫”的相关性。因此搜索引擎可以根据词语出现位置的不同分别设置不同的权重值以此反映这种位置不同所产生的相关度差异。不过这些方法都存在着一个致命的问题。谁不想让自己的网页排在搜索引擎返回网页结果的前面呢网络管理员完全可以通过在自己的网页中重复或者故意在重要位置添加一些流行关键词从而获得本来并不应该获得的次序提升。我们把这种行为称为“搜索引擎作弊Search Engine Spam”。而早期的搜索引擎无一例外都存在着这种被欺骗的可能性。如同评价一个人他自己说怎么怎么好是没有用的而凭借词频和词语出现位置来评价网页相关性就如同采用这样的自我评价方法一样缺乏客观性。显然更为客观的方法应该是由别人来评价。对于网页而言这种所谓的别人评价方法存在吗完全存在这就是超链。我们做一个分析。如果在查询某一个词语时有一个Yahoo的网页和某个用户的个人博客网页都被命中那么哪个网页更可能与当前查询用户的信息需求相关呢虽然我们没有具体考察这些网页的内容但是凭感觉或者说有相当大的概率可以保证Yahoo的网页可能更相关因为Yahoo网站知名度高。为什么说Yahoo网站知名度高呢因为有很多Internet上的网页都有指向Yahoo网站网页的超链。对于这种超链Yahoo自己无法控制它们是由其他人在自己网页中建立的从而较为客观和间接的反映出目标网页的质量和相关性。事实上Google的PageRank和百度的超链分析技术都基于这种思想来给结果网页进行排序实践证明该方法很有效。然而不可否认的是即便是这种方法现在也仍然受到多方面的挑战甚至催生出一种新的职业SEOSearch Engine Optimizer搜索引擎优化师言下之意就是利用搜索引擎排序方法的特点有意识的对目标网页建立一些超链从而获得查询结果次序的提升。搜索引擎允许正当的优化提升行为但是会检测那些恶意的提升行为。2006年德国的宝马汽车公司就因为这种恶意提升行为而遭到Google的封杀以至于当时从Google搜索引擎中再也无法找到德国宝马汽车公司的网站信息人们形象的称之为“Google死刑”。不过细心的读者可能还会发现百度结果网页的右边还有一组网页结果这是怎么回事其实搜索引擎早已注意到这种排序机制对于企业产品营销是非常重要的与其你们你抢我夺的来争不如我搜索引擎自己来卖。搜索引擎可以通过竞价出售的方式来销售某些流行关键词的排序位置这也是现代搜索引擎一种重要的商业盈利模式。有些搜索引擎将这些竞价排名的网页和一般的网页结果混合在一起而诸如百度等搜索引擎则在结果网页的右边单独显示这些付费排序结果内容。不管怎么说竞价排名也成为一种重要的排序指标。更有意思的是有些搜索引擎甚至还允许用户自主选择排序依据如北大天网的FTP搜索引擎就可以根据“相关”、“时间”、“大小、“距离”和“稳定”等指标由用户自主选择排序依据从而方便用户使用比如如果要下载的文件较大则可以按照“大小”排序把大文件放在前面。页面如图3. 47所示图3. 47 北大天网FTP搜索引擎可以根据多种指标对结果进行排序截取于2004-9 最后说明一点由于搜索引擎爬虫程序会定期重新遍历网页更新网页索引数据库所以搜索结果和结果网页的次序并非始终保持不变。有时这些结果网页甚至会显示出剧烈的排名波动有的网站会在查询结果中突然消失再也找不到而有的网站则突然名列首位。如Google搜索引擎数据库每月会有一次大规模的升级产生的这种波动现象被人形象的称之为“Google之舞Google Dance”。 1.3 特种搜索引擎除了Web网页搜索引擎外Internet网络上还有很多特殊类型的搜索引擎如元搜索引擎、FTP搜索引擎、多媒体搜索引擎和地图搜索引擎等。这些都能够给用户提供一些具有特殊功能的查询方法它们对Web网页搜索引擎也是一种很好的功能补充。 1.3.1 元搜索引擎元搜索引擎的原理和一般搜索引擎并不一样它并没有采用标准的爬虫和索引数据库等复杂的结构相反它非常简单。为什么要使用元搜索引擎元搜索引擎是如何工作的在回答这些问题之前我们先来看看传统Web搜索引擎可能存在的问题。事实上由于各个Web搜索引擎所使用的爬虫技术和索引技术都各不相同而且都把实现细节作为核心秘密并不对外公开所以就使得各个Web搜索引擎的差异很大比如现代搜索引擎的相关度排序算法都各不相同通常任何两个搜索引擎都会对同一个查询词语提供完全不一样的结果如查询“期货行情”百度的查询结果和Google的查询结果如图3. 48所示图3. 48 在百度和Google中查询“期货行情”的不同显示结果页面截取于2010-7 这就会造成一些困惑究竟什么网页是用户最想得到的而且不同的搜索引擎优点和强项也各不一样经常有人形象的说“内事问百度外事问Google”说白一点就是百度查询中文信息更为方便一些而Google查询外文信息则更为强大。能不能把所有搜索引擎的功能结合起来提供一个更为强大的搜索引擎这就是元搜索引擎。一般而言元搜索引擎往往能够提供更为方便和强大的查询界面接口用户使用起来更为方便如有的元搜索引擎增加了时间查询功能有些还能够将网页查询、词典查询、百科查询和寻人服务等全部结合成一个一站式的查询站点。当然元搜索引擎自身没有任何爬虫和索引不过它会将用户的查询转发到其他真正的Web搜索引擎中一般的转发方式是转发给多个搜索引擎然后将获取到的不同搜索引擎的查询结果集中起来按照自己提出的相关度排序算法重新排序和筛选整理出最终的查询结果返回给用户。复杂的转发方式甚至可以根据用户查询的不同而转发到不同的搜索引擎和一些信息查询站点以充分发挥其他搜索引擎和信息查询站点的特殊优势最终也把结果整理后返回给用户。所有这些处理步骤用户都是看不见的用户唯一能够感受到的只有一个功能更为强大和全面的搜索引擎那就是元搜索引擎。不妨做个比喻比如火车订票如果直接到火车站去购票虽然可以直接获得所需的车票但是有时并不方便。借助票务公司上述缺点都可以很好的得以解决虽然他们的火车票最终仍然来自于火车站。用户直接把请求提交给票务公司票务公司利用火车站的资源通过增加自己的服务内容以方便用户使用最终将火车票返回给用户。我们可以把火车站看成是一个搜索引擎而把票务公司看成是元搜索引擎而用户的买票则可以看成是信息查询。目前主要的元搜索引擎有两种类型元搜索引擎站点和桌面元搜索引擎。 1.3.1.1 元搜索引擎站点元搜索引擎站点是以Web网站的形式提供服务和一般的搜索引擎相比外观和使用方式十分相似。它们有Metacrawler、iTools和Dogpile等。 1Metacrawler 最早的元搜索引擎就是于1995年由华盛顿大学University of Washington学生埃里克·塞尔伯格Eric Selberg和奥林·艾兹尼Oren Etzioni设计的Metacrawler现在它主要利用Google、Yahoo、Bing和Ask等搜索引擎来提供查询服务。它的名字直接翻译过来就是“元爬虫”这恐怕也是元搜索引擎名称中那个“元”的来历。它的网址为http://www.metacrawler.com主页如图3. 49所示图3. 49 Metacrawler元搜索引擎的主页界面截取于2010-7 值得注意的是该元搜索引擎不能很好的支持中文信息查询。如查询“Investment投资”结果页面如图3. 50所示图3. 50 在Metacrawler元搜索引擎中查询“Investment”的结果页面截取于2010-7 除了能够在网页上部看到明显的“View Results From查看结果来自于”说明外每条记录的后面都跟有诸如“Found on Google, Bing, Yahoo! Search在GoogleBingYahoo! 中查询到”之类的说明不同的命中结果都会跟随不一样的来源搜索引擎名称而且这些结果的内容和排序都和后台搜索引擎并不一样。Metacrawler还在结果网页中提供很多更为强大的查询功能。如扩展查询它显示在页面的右部标题为“Are you looking for你是不是要找”。同时还有历史查询记录Recent Searches和流行查询词Popular Searches。除了这些功能外Metacrawler还具有黄页查询和百页查询等高级功能其中黄页查询包括了Metacrawler提供的百页查询服务即寻人服务。在Metacrawler主页点击“Yellow Pages黄页”即可看到黄页查询页面如图3. 51所示图3. 51 Metacrawler元搜索引擎提供的黄页查询截取于2010-7 在此用户可以查询企业、个人和地图等信息Metacrawler通过Superpages黄页站点[19]返回公司目录信息通过Intelius寻人查询站点[20]来提供寻人服务。如查询“Microsoft微软”的公司信息查询结果如图3. 52所示图3. 52 在Metacrawler元搜索引擎黄页查询中查询“Microsoft”的结果页面截取于2010-7 2iTools iTools也是一款非常不错的Web元搜索引擎。和Metacrawler相比它所收录的搜索引擎和提供的功能更多。网址为http://www.itools.com主页如图3. 53所示图3. 53 iTools元搜索引擎的主页界面截取于2010-7 iTools也不能很好的支持中文查询但是它提供的查询功能确实太多主要分为三大类分别是“Search Tools查询工具”、“Language Tools语言工具”和“Research Tools研究工具”。所有的工具都有默认的搜索引擎或者查询站点用户可以更改这些设定。在页面的左边有一个列表比如点击“Search Tools查询工具”即可看到查询工具的默认搜索引擎设置并可以更改不过和Metacrawler能够同时查询多个搜索引擎不一样iTools中的一个查询功能只能设定一个默认的搜索引擎来查询页面如图3. 54所示图3. 54 在iTools元搜索引擎中更改默认的查询工具设置截取于2010-7 对于语言工具和研究工具而言iTools的功能也非常多如语言工具中利用Merriam-Webster韦氏词典提供的词典服务和利用微软Encarta在线百科全书提供的百科全书查询服务等。相关查询界面如图3. 55所示图3. 55 iTools元搜索引擎提供的语言工具和研究工具截取于2010-7 1.3.1.2 桌面元搜索引擎由于元搜索引擎实现难度小完全可以将其制作成一个可以运行在计算机上的应用程序这样用户只需打开这个程序就可以使用元搜索引擎的各项功能。这种程序被称为桌面元搜索引擎。这些软件大多都可以从Internet中下载一般的软件下载站点中“网络工具”的“网络搜索”栏目都会有收藏。 1飓风搜索通它是一个桌面应用程序可以将用户查询转发到包括百度、Google等在内共7个搜索引擎并将结果集中显示在该程序界面中。如查询“汇率”相关网页结果用户能够看到明显的在各个搜索引擎中查询结果的获取进度界面如图3. 56所示图3. 56 在飓风搜索通中查询“汇率”的程序运行界面截取于2010-7 点击具体的每一个搜索引擎可以看到该搜索引擎的查询结果如图3. 57所示图3. 57 在飓风搜索通中查询百度搜索引擎获取的“汇率”相关网页结果截取于2010-7 该桌面搜索引擎还可以允许用户通过提交自定义搜索引擎来扩展系统的查询功能。 2搜索奇兵该系统功能更为强大一些不仅可以对多个搜索引擎进行同步查询而且还增加了诸如过滤重复域名、按更新时间排序、验证网址方法是否更加先进与稳定、过滤不合适字词等功能这些功能都是对现有搜索引擎功能的扩充和完善。如查询“iphone”的相关查询结果界面如图3. 58所示图3. 58 在搜索奇兵中查询“iphone”相关网页结果截取于2010-7 1.3.2 FTP搜索引擎 FTP是早期Internet所提供的文件查询服务但是随着WWW服务的出现FTP并没有消失相反人们在很多情况下仍然需要使用这种功能特别是在查询音乐、软件、电子书或者视频等文件信息的时候利用FTP可以一步到位的找到所需文件。Internet上现在仍有很多FTP服务器在运行其中相当一部分是免费的FTP服务器。然而我们需要知道哪个FTP服务器上有哪些文件这也是早期Archie出现的原因之一。和元搜索引擎一样在Internet上有专门的基于WWW方式访问的FTP搜索引擎站点和桌面FTP搜索引擎程序这些不论是在功能上还是界面易用度上都比早期的Archie等工具更为优秀。 1.3.2.1 FTP搜索引擎站点 1北大天网它是一款国内较为著名的FTP搜索引擎由北京大学计算机网络与分布式系统实验室运行维护。它提供了网页查询和FTP文件查询两种主要功能。网址为http://e.pku.edu.cn主页如图3. 59所示图3. 59 北大天网FTP搜索引擎的主页界面截取于2005-12 点击主页上的“搜索文件”就可以查询FTP文件。如查询开发工具“JDK”的软件包文件可以直接在搜索框中输入“JDK”即可得到命中结果。和一般的Web搜索引擎不一样的地方在于这些命中结果都是可以直接下载的FTP文件链接界面如图3. 60所示图3. 60 在北大天网FTP搜索引擎中查询“JDK”的相关FTP文件结果页面截取于2005-12 北大天网还允许用户对结果按照不同指标进行排序已得到合适的结果次序。同时借助FTP搜索引擎我们还可以得到更多的相关查询结果。比如既然命中的FTP服务器上有JDK的相关文件那么它就应该还具有与此相关的更多资源。如在上述结果界面中点击“资源位置”链接即可打开相应结果所在的FTP服务器文件目录从中可以看出与JDK相关的其他一些开发工具也都可以下载使用界面如图3. 61所示图3. 61 在北大天网FTP搜索引擎中进一步查询与“JDK”相关的其他FTP文件结果截取于2005-12 2Grid FTP搜索引擎它是由中国科学技术大学网络信息中心网络技术研究中心运行维护的FTP搜索引擎既可以进行中国科学技术大学的校园FTP资源查询也可以用于Internet中FTP资源的查询。在功能上它可以查询诸如文件和影视等各种常见FTP资源。网址为http://grid.ustc.edu.cn主页如图3. 62所示图3. 62 Grid FTP搜索引擎的主页界面截取于2010-7 3FileWatcher文件看守者它是一款国外的FTP搜索引擎。除了支持一般的FTP文件名称查询外还支持部分文件内容的查询功能甚至提供了很多布尔查询和模糊查询功能。网址为http://www.filewatcher.com主页如图3. 63所示图3. 63 FileWatcher FTP搜索引擎的主页界面截取于2010-7 比如查询“carrace赛车游戏”界面如图3. 64所示图3. 64 在FileWatcher FTP搜索引擎中查询“carrace”的结果页面截取于2010-7 所有的查询结果文件只要能够找得到一般都可以直接点击下载这是FTP搜索引擎最为重要的一个特点。 FileWatcher另一个非常强大的地方在于它还支持正则查询Regex Query。比如正则查询表达式“^car*game”就表示“以car开头并后接game”的相关词语查询结果如图3. 65所示图3. 65 在FileWatcher FTP搜索引擎中进行正则查询“^car*game”的结果页面截取于2010-7 1.3.2.2 桌面FTP搜索引擎此类桌面FTP搜索引擎有很多。和桌面元搜索引擎一样这些软件也多位于下载站点中“网络工具”的“网络搜索”栏目。此类搜索引擎软件不带有自己的索引往往只提供一个类似于爬虫的搜索程序可以扫描FTP服务器来获取相应的文件资源信息。 FTP搜索利器就是一款常见的桌面FTP搜索引擎软件该软件允许用户设置起始IP和结束IP并自动扫描此IP段的所有的FTP服务器并可以浏览相应FTP服务器下的所有文件信息。程序界面如图3. 66所示图3. 66 FTP搜索利器的程序运行界面截取于2010-7 1.3.3 多媒体搜索引擎从概念上看多媒体搜索引擎是相对于一般文本搜索引擎而言的也就是说利用该搜索引擎用户可以查询诸如图片、视频和音频等多媒体信息。事实上现阶段的大多数搜索引擎都支持多媒体查询功能如百度的MP3搜索和Google的图片搜索等。然而现阶段的多媒体搜索引擎都是利用文字信息来查询这种方式被称之为基于文本Text-based的多媒体查询方法。虽然看起来比较简单和易于使用但是由于一般的多媒体数据信息通常都会缺乏必要的文字信息说明而且在现阶段人们还难以有效和快速的从多媒体信息中抽取文字信息内容所以利用文字信息进行查询的效果通常都不是很好。随着技术的发展人们也逐渐推出了一些更为高级的利用多媒体信息自身特征数据进行查询的方法如按照音乐风格和图片颜色等方法这种方式被称之为基于内容Content-based的多媒体查询方法。本节分别介绍图片搜索引擎、音乐搜索引擎和视频搜索引擎等三种最为常见的多媒体搜索引擎同时对基于文本的查询方法和基于内容的查询方法也分别予以说明。 1.3.3.1 图片搜索引擎比如百度的图片搜索引擎用户可以从百度的主页选择“图片”进入也可以直接进入它的网址为http://image.baidu.com主页如图3. 67所示图3. 67 百度图片搜索引擎的主页界面截取于2010-7 比如想查询中国工商银行的标志图片可以直接输入“中国工商银行标志”查询结果如图3. 68所示图3. 68 在百度图片搜索引擎中查询“中国工商银行标志”的结果页面截取于2010-7 虽然此次查询效果不错但也需要掌握很多的查询方法和注意事项。首先应当理解这种基于文字的多媒体查询对于较为常见的普通查询效果一般都不错但是对于功能较为独特、专指性较强的查询而言则效果往往不甚理想。如查询“南京财经大学信息工程学院”查询结果如图3. 69所示图3. 69 在百度图片搜索引擎中查询“南京财经大学信息工程学院”的结果页面截取于2010-7 显然结果不够理想这些图片都是南京财经大学的校园图片。造成这种现象的主要原因有两个一个相关图片可能确实很少二是相关图片可能没有足够的有效文字进行描述因此无法查询出来。第二是要注意准确表达用户查询需求。如查询苹果公司的著名标记直接输入“苹果”查询结果多为水果类图片如图3. 70所示图3. 70 在百度图片搜索引擎中查询“苹果”的结果页面截取于2010-7 此时可以考虑使用其他图片搜索引擎更换查询词语或者采用更多的文本查询策略等方法这些内容在下一章有专门说明。第三可以考虑使用一些基于内容的查询方法如在百度图片搜索引擎中我们能够在搜索框下方看到诸如“新闻图片”、“全部图片”、“壁纸”、“表情”和“头像”之类的类别说明甚至还有更为高级的“图片尺寸”和“图片颜色”其中“图片颜色”就可以看成是一种典型的基于内容的查询方法如选择“黑色”因为苹果水果不可能为黑色相反一些产品商标则更易于采用黑色之类的典雅设计方案查询结果如图3. 71所示图3. 71 在百度图片搜索引擎“苹果”查询结果页面中选择“黑色”图片截取于2010-7 随着技术的发展现代图片搜索引擎的查询功能更为完善和丰富如Idée公司实验室[21]推出的几款基于颜色和图片相似度的搜索引擎系统等。如其中基于颜色的图片搜索引擎允许用户选择图片所具有的颜色自由查询相应的图片结果如图3. 72所示图3. 72 在Idée公司实验室图片搜索引擎中根据颜色查询图片的结果页面截取于2010-7 1.3.3.2 音乐搜索引擎音乐搜索引擎属于音频搜索引擎的一种。早期百度提供的MP3搜索就是一种著名的音乐搜索引擎网址为http://mp3.baidu.com主页如图3. 73所示图3. 73 百度MP3搜索引擎的主页界面截取于2010-7 它提供了诸如基于歌曲名称、歌手和歌词等文本查询方法也允许用户选择音乐文件的类型如“MP3”、“rm”和“wma”等格式。其中的“视频”查询只是将音乐查询和视频查询功能结合在一个界面上本质仍然是视频查询而已。下面重点介绍一下Google的音乐搜索引擎。因为它提供了一个极为有趣的、基于内容的查询方法网址为http://www.google.cn/music主页如图3. 74所示图3. 74 Google音乐搜索引擎的主页界面截取于2010-7 点击其中的“挑歌”即可打开一个界面允许用户按照包括“节奏”、“声调”、“音色”在内的歌曲风格以及“年代”、“歌手”、“流派”和“语言”等多项指标来进行复合查询。如查询2001年到2003年间、声调低沉并且音色丰富的歌曲查询结果如图3. 75所示图3. 75 在Google音乐搜索引擎通过音乐风格来挑歌截取于2010-7 任意选择一个歌曲都可以打开Google的在线试听音乐页面直接听取歌曲和浏览歌词同时还能查询“相似歌曲”和下载所需歌曲界面如图3. 76所示图3. 76 Google音乐搜索引擎的在线试听音乐界面截取于2010-7 1.3.3.3 视频搜索引擎视频查询是这些多媒体搜索引擎中功能最为复杂的一个实现难度也最大。为了提供查询的准确度和满足用户对最新视频的查询需求现阶段的搜索引擎多采用与著名媒体和其他视频内容提供商合作的方式来提供视频查询服务。如百度的视频搜索引擎网址为http://video.baidu.com主页如图3. 77所示图3. 77 百度视频搜索引擎的主页界面截取于2010-7 不同类型的多媒体往往具有不同的查询特征如对于视频而言字幕信息就是一种极为重要的语义描述信息画质和片长也是常见的查询字段这些功能都可以在高级搜索界面中进行选择。如在Google视频搜索引擎的“高级搜索”界面中查询谈论中国经济发展前景的中文短片视频设置界面如图3. 78所示图3. 78 在Google视频搜索引擎“高级搜索”中查询谈论中国经济发展前景的中文短片视频截取于2010-7 在查询结果中Google自动打开“Google百宝箱”从而展示了更多的查询选择指标如图3. 79所示图3. 79 在Google视频搜索引擎中查询谈论中国经济发展前景的中文短片视频的结果页面截取于2010-7 1.3.4 地图搜索引擎地图搜索引擎作为一种特殊的搜索引擎它在现代搜索引擎中的作用越来越大很多结合购物、旅游和交友的信息查询服务都开始与地图搜索引擎进行结合从而为用户提供更为方便和直观的体验。国外的Google地图搜索引擎、国内早期的“图行天下Go2map”[22]都是一些比较有代表性的地图搜索引擎。 Google地图搜索引擎是近年来受到关注最多的一款。早在2004年Google就通过收购卫星影像提供商Keyhole使用Keyhole的Quick Bird捷鸟卫星影像开始对外提供地图搜索服务。后来该项服务开始与生活搜索、移动搜索等进行结合并允许用户通过Google地图搜索引擎提供的专门方法可以很方便的将这些地图查询功能集成到自己的网站系统中影响度很快得以扩大。它的网址为http://maps.google.com主页如图3. 80所示图3. 80 Google地图搜索引擎的主页界面截取于2010-7 用户可以直接在搜索框中输入所要显示的城市名称中英文都支持如查询“北京”的地图信息显示结果如图3. 81所示图3. 81 在Google地图搜索引擎中查询“北京”的结果页面截取于2010-7 用户可以拖拽地图左边的缩放尺来缩放地图还可以点击地图右上角的诸如“路况”和“卫星”等按钮来改变地图的显示内容如切换为“卫星”视图后将会显示北京城市的卫星拍摄地图如图3. 82所示图3. 82 在Google地图搜索引擎中查询“北京”的卫星地图页面截取于2010-7 更为有意思的是Google地图还提供了街景浏览功能。用户只需将缩放尺上边的黄色小人拖拽到地图上此时可以显示那个位置的街景照片。对于有些城市Google还提供了三维街景视图如香港浅水湾地区的三维街景视图如图3. 83所示图3. 83 在Google地图搜索引擎中查询“香港浅水湾”的三维街景地图页面截取于2010-7 而且近年来Google也将很多其他的信息查询服务与地图查询结合了起来如和公交查询结合等。如查询从南京火车站到南京财经大学仙林校区的的士路线同时显示当前路况信息结果如图3. 84所示图3. 84 在Google地图搜索引擎中查询公交信息和路况信息截取于2010-7 [1] 2009-2010年iResearch艾瑞咨询中国搜索引擎市场份额报告. http://www.iresearch.com.cn/Report/1360.html. 2010-3. [2] 扩检是指扩展检索意即对当前查询词语的语义进行分析找到更为一般的、或者与此相关的其他查询词语来提供给用户在做进一步查询时使用。 [3] Surf是指冲浪这里意指所谓的网上冲浪通常上网的用户也被称为“冲浪者Surfer”。 [4] 所谓搜索造假者是指一些恶意的网站管理者通过故意修改网页内容来设法提升自己网页在搜索引擎命中结果中的位置或者使得用户在输入一些常见词语进行查询的时候也能很方便的找到网站管理者自己的网页。显然这种行为并不公平而且会极大影响搜索引擎自身的声誉。 [5] 微软早期推出的搜索引擎也很著名如MSN Search、Live Search等2009年微软推出了Bing中文名称是“必应”并同时停止了原有的那些搜索引擎服务。 [6] 按点击付费Pay Per Click的搜索引擎盈利模式最早是由Goto搜索引擎提出的它允许网站管理者实时进行查询结果的排序客户可以花钱购买排序的位置通过拍卖的形式将相关网站放在前面但同时明确标出这个查询结果是付费的。这种方式给它带来了巨大的收益。2001年Goto更名为Overture。 [7] googol是美国数学家Edward Kasner的侄子Milton Sirotta创造的一个词。 [8] Alpha版和Beta版都是软件开发中的常见术语。一般而言所谓Alpha版是指尚未交付使用的测试版本而Beta版是指可以运行的最终发布版本。 [9] Google高价购回中国域名十九个字母百万. http://www.sh.xinhuanet.com/2005-04/29/content_4156067.htm. 2009-10. [10] 2010年4月Google已经退出中国内地市场所以域名自动定向到香港服务器下同样此前号称最短的域名www.g.cn和中国域名www.google.cn也都会自动定向过去。 [11] 微软的“杜威女士”搜索引擎已于2009年底关闭服务。 [12] 在2010年4月2日的Ask主页上我们能够看到一个“Question of the Day每天一问”如“What year brought the most abundant Swiss spaghetti harvest瑞士面条树大丰收是哪一年出现的”。这其实是个愚人节玩笑1957年愚人节BBC新闻中说瑞士的面条树大丰收农民都在树上收割面条。大量观众上当受骗打电话来咨询面条树的种植方法。BBC对此的回复是把一根面条插在番茄酱里然后就等着吧。 [13] 从字面看ESP是指超感觉的知觉Extra-Sensory Perception即俗称的第六感。这个名称反映了用户在使用该技术查询时仿佛具有第六感比较容易获得自己想要的东西。 [14] Logo中那个蓝色的图案是个熊掌。之所以这样据说在创立的时候百度开发者觉得其他的搜索引擎网站太沉闷而选择的熊掌则比较俏皮可爱。话说回来很多其他搜索引擎也常常都有一个动物图腾如搜狐有“狐狸”等。 [15] 《搜索引擎—原理、技术与系统》官方电子版本的下载地址为http://sewm.pku.edu.cn/book/LxmYhfWjm_v1.0.pdf。 [16] Z. Bar-Yossef and M. Gurevich. Random sampling from a search engines index. In Proceedings of 15th International World Wide Web Conference, 2006. [17] Google创始人塞吉•布林Sergey Brin就曾经发表过一篇探讨PageRank的经典论文《The pagerank citation ranking: Bringing order to the webPageRank排序方法给Web带来次序》斯坦福大学的数字图书馆就有电子全文的下载服务网址为http://ilpubs.stanford.edu:8090/422。今天的Google站点还收集着有关Google技术细节的更多相关论文网址为http://research.google.com/pubs/papers.html。 [18] 1K约为1000个英文字符或者500个汉字字符。 [19] Superpages黄页站点的网址为http://www.superpages.com。 [20] Intelius寻人查询站点的网址为http://www.intelius.com。 [21] Idée公司实验室的网址为http://labs.ideeinc.com。 [22] 2005年4月12日搜狐收购了图行天下将其地图数据引入到自己的搜索引擎搜狗之中。

查看全文

http://www.hkea.cn/news/14529873/