最早了解李彦宏超链分析专利是在洪波的博客中看到一篇文章:超链分析和PageRank的专利问题,才第一次知道百度总裁李彦宏曾经申请并获得对于超链接分析的专利,这份专利申请文件在美国专利局网站看到。李彦宏这个专利申请是在Google申请他们自己的PageRank专利之前的。
由于这两份专利都是研究网页链接的,而且这两个专利的发明人是现在两大搜索引擎的创始人,所以很多人对这两个技术专利分不大清楚。甚至有的人直觉这两个专利是相似的或有抄袭嫌疑,这牵扯到两家公司的核心利益了。这两份专利我都认真读了原文,谈一下我的看法。
我的理解是,这两个专利是有相当大的区别的,要解决的问题和实施方法都不一样,但研究对象是一样的,都是页面链接。
超链分析要解决的是文件与搜索关键词的相关性。李彦宏提出的方法是,除了文件本身肯定要使用关键词外,还需要考虑反向链接中的关键词因素。
具体来说,一个文件被索引进数据库的时候,会连同指向这个文件的超链接,以及每个超链接使用的锚文字(链接文字),一同记录在案。而关键词也会建立一个数据库,每个词连同含有这个词的超链接,以及这些超链接所指向的文件一同被记录在案。
当一个关键词被搜索的时候,含有以关键词为链接文字的反向链接数目最多的那个文件或网页,将被作为最相关的结果排在前面。也就是今天SEO们的常识:链接锚文字会提高页面与关键词的相关性。
这是基本思路,当然还有其他变量考虑进去。比如说搜索字符串含有几个词的时候,每一个词都是搜索矢量的一个维度。
这篇专利申请中已经提到了词干技术,而且提到了不同语言文件的相关性。
在搜索算法中考虑链接,主要是链接锚文字,是李彦宏的首创,有可能Google创始人提出PR值理论时受到过李彦宏专利的启发,他们听过李彦宏的演讲,还向李彦宏请教过问题。
Google的PR专利是专注在已经应用了超链分析之后还不能解决的问题。在Google的专利申请中,明确提到即使在考虑了指向文件的链接及链接锚文字之后,搜索引擎还有重要问题需要解决,那就是来自不同文件的链接有不同的权重值。
你不能指望来自白宫网站的链接和非洲某小镇上一个学生的个人网站上的一个链接,投票值相同。而Google PageRank就是衡量网页重要性的一个方法。指向一个网页的链接越多,而这些链接本身的权重越高,那么这个被指向的网页的重要性及PageRank就越高。
Google的专利申请当中给出了具体怎样计算这个被称为PageRank的重要性指标,简称PR值。PR的计算需要进行多个循环的替代计算,才能收敛到一个稳定值,通常PR值收敛到一定精度就可以了,没必要计算出最终值。
Google PR是与搜索词无关的,或者说与文件相关性无关的。它只描述某一个文件的重要性或地位。
就目前所有搜索引擎的表现来看,可以肯定这两个技术都已经被应用在排名算法中了,虽然可能名字不一样。当然,现在的搜索算法比当初的要复杂多了,超链分析和PR值算法现在肯定也经过了很多修改。
来源:SEO每天一贴 Zac 昝辉
没有回复内容