联系电话:18609840880

想网站优化好需要掌握好Google搜索引擎原理

发布时间:08-18

  1994-2000搜索引擎技术必须迅速更新(scaledramatically),才能赶上成倍增长的网络。1994年,第一家 Web搜索引擎—— WorldWideWebWorm (WWWW)能从110,000个网页和 Web上检索文件。截至1994年11月,受欢迎的搜索引擎宣称能够检索2'000′000 (WebCrawler)至100'000′000个网络文件(SearchEngineWatch)。据预测,在2000年,可用网页的检索量将超过1'000′000。与此同时,搜索引擎流量还将以惊人的速度增长。一九九七年四月, WorldWideWebWorm平均每天收到1500条查询。Altavista于1997年十一月宣称每天要处理20°000°000次询问。由于因特网用户增加,到了2000年,自动搜索引擎每天要处理上亿个查询。为了解决一系列问题,包括质量和可升级性,我们的系统设计目标是将搜索引擎升级(scalingsearchenginetechnology),并将其升级到这么多的数据。

  改进检索质量我们的主要目的是改进 Web搜索引擎的质量。在一九九四年,有一种说法是,建立一个完整的搜索索引(acompletesearchindex)会让你更容易地找到任何资料。据BestoftheWeb1994-Navigators所言:“更佳导航服务能够让你轻松地在网上搜索任何信息(当所有数据都可登陆时)。但是在1997年, Web截然不同。近,搜索引擎用户发现,索引完整性并非评价搜索质量的唯一标准。“垃圾结果 Junkresult”里有一个用户感兴趣的搜索结果。事实上,到了1997年11月,四大商业搜索引擎中只有一家能发现自己(搜索自己的名字后,会返回前十名)。造成这个问题的主要原因是,文档的索引数量增加了几个数量级,但用户可以阅读的文档数量并没有增加。使用者仍需要查看之前的数十条搜索结果。所以,当收集量变大时,我们需要这些工具来保证结果的准确性(关于所返回的几十个结果的相关文件数)。因为要从数以千计的文件中挑选出许多个,所以事实上,相关的概念代表了一个更佳文档。高度准确是很重要的,即使是响应(系统可以返回的相关文件总数)也是有代价的。值得庆幸的是,使用超文本链接可以帮助改善搜索以及其他应用程序。链路结构和链路文本在关联性判断、高质量筛选等方面提供了丰富的信息。Google利用了链接的结构和 anchor文本(见2.1和2.2)。

  互联网对信息检索提出了新的挑战。网上信息的数量迅速增加,而没有经验的新用户也不断地使用 Web这种技术。在网上浏览超级链接时,人们往往会使用类似于 Yahoo这样重要的网页或者搜索引擎。每个人都觉得 List (目录)包含了人们感兴趣的主题,但它是主观的,创建和维护成本很高,升级缓慢,并且没有涵盖所有的深奥主题。以关键字为基础的自动搜索引擎往往会返回很多低劣的文章。更令人头疼的是,有些广告为了吸引人们的注意想方设法误导自动搜索引擎。构建大搜索引擎可以解决现有系统中许多问题。使用超文本结构可以极大地提高查询质量。这个系统被命名为 google,也就是我们通常所说的10的100次方程式,它与我们想要构建大的搜索引擎有很大的关系。

  1994-2000搜索引擎技术必须迅速更新(scaledramatically),才能赶上成倍增长的网络。1994年,第一家 Web搜索引擎—WorldWideWebWorm (WWWW)能从110,000个网页和 Web上检索文件。截至1994年11月,受欢迎的搜索引擎宣称能够检索2'000′000 (WebCrawler)至100'000′000个网络文件(SearchEngineWatch)。据预测,在2000年,可用网页的检索量将超过1'000′000。与此同时,搜索引擎流量还将以惊人的速度增长。一九九七年四月, WorldWideWebWorm平均每天收到1500条查询。Altavista于1997年十一月宣称每天要处理20°000°000次询问。由于因特网用户增加,到了2000年,自动搜索引擎每天要处理上亿个查询。为了解决一系列问题,包括质量和可升级性,我们的系统设计目标是将搜索引擎升级(scalingsearchenginetechnology),并将其升级到这么多的数据。