新闻中心

搜索引擎关键词排名的链接原理

类型 : 行业动态

 

    在Google诞生之前,传统搜索引擎主要依靠页面内容中的关键词匹配搜索词进行排名。这中排名方式的短处现在看来是显而易见,那就是很容易被刻意操纵。黑帽SEO在页面上堆积关键词。或加入与主题无关的热门关键词,都能提高排名,使搜索引擎排名结果质量大为下降。现在的搜索引擎都使用链接分析技术减少垃圾,提高用户体验。本节就简要探讨链接在搜索引擎排名中的应用原理。
 
        在排名中计入链接因素,不仅有助于减少垃圾,提高结果相关性,也使传统关键词匹配无法排名的文件能够被处理。比如图片、视频文件无法进行关键词匹配,但是却可能有外部链接,通过链接信息,搜索引擎就可以了解图片和食品的内容从而排名。
 
         链接因素现在已经超过页面内容的重要性。不过理解链接关系比较抽象。页面上的因素对排名的影响能看得到:关键词在标题标签中出现有什么影响,出现在最前面又有什么影响,有技术资源的还可以大规模地统计,技术出关键词出现在标题标签中不同位置与排名之间的关系。虽然这种关系不一定是因果关系,但至少是统计上的联系,使SEO人员大致了解如何优化。
 
李彦宏超链分析
 
        百度创始人李彦宏在回国之前就是美国顶级的搜索引擎工程师之一。据说李彦宏在寻找风险投资时,投资人询问其他三个搜索引擎业界的技术高人一个问题:要了解搜索引擎技术应该问谁。这三个被问到的高人中有两个人回答:搜索引擎的事就问李彦宏。由此投资人断定李彦宏是最了解搜索引擎的人之一。
 
        这事实就是在现实生活中类似于链接关系的应用。要判断哪个页面最具权威性,不能光看页面自己怎么说,还要看其他页面怎么评价。
 
        李彦宏1997年就提交了一份名为“链接文件检索系统和方法”的专利,这比Google传说人发明PR要早得多,不得不说这是非常具有前瞻性的研究工作。在这份专利中,李彦宏提出了与传统信息检索系统不同的基于链接的排名方法。
 
        这个系统除了索引页面之外,还建立一个链接词库,记录链接锚文字的一些相关信息,如锚文字中包含哪些关键词,发出链接的页面索引,包含特定锚文字的链接总数,包含特定关键词的链接都指向哪些页面。词库不仅包含关键词原型,也包含同一个词干的其他衍生关键词。
 
        根据这些链接数据,尤其是锚文字,计算出基于链接的文件相关性。在用户搜索时,将得到的基于链接的相关性与基于关键词匹配的传统相关性综合使用,得到更准确的排名。
 
        在今天看到,这种基于链接的相关性计算是搜索引擎的常态,每个SEO人员都知道。但是在十几年前,这无疑是非常创新的概念,当然现在的搜索引擎算法对链接的考虑,已经不仅仅是锚文字,实际上要复杂的多。
 
HITS算法
 
        HITS是英文Hyperlink-Induced Topic Search 的缩写,意译为“超链诱导主题搜索” 。
 
        按照HITS算法,用户输入关键词后,计算对返回的匹配页面技术两种值,一种是枢纽值,另一种是权威值,这两个值是相互依存、相互影响的。所谓枢纽值,指的是页面上所有导出链接指向页面的权威值之和。权威值指的是所有导入链接所在页面的枢纽值之和。
 
        上面的定义比较拗口,我们可以简单的说,HITS算法会提炼出两种比较重要的页面。也就是枢纽页面和权威页面。枢纽页面本身可能没有多少导入链接,但是有很多导出链接指向权威页面。权威页面本身可能导出链接不多,但是有很多来自枢纽页面的导入链接。
 
        典型的枢纽页面就是如雅虎目录,开放目录或好123这样的网站目录。这种高质量的网站目录作用就在于指向其他权威网站,所有称为枢纽,而权威页面有很多导入链接。其中包含很多来自枢纽页面的链接。权威页面通常是提供真正相关内容的页面。
 
        HITS算法是针对特定查询词的,所以称为主题搜索。
 
 
        HITS算法的最大缺点是,它在查询阶段进行计算,而不是在抓取或预处理阶段。所以HITS算法是以牺牲查询排名相应为代价的。也正因为如此。原始HITS算法在搜索引擎中并不常用。不过HITS算法的思想很可能融入到搜索引擎的索引阶段,也就是根据链接关系找出具有枢纽特征或权威特征的页面。
 
        称为权威页面的第一优先,不过难度比较大,唯一的办法就是获得高质量的链接,当你的网站不能成为权威页面时,就让它成为枢纽页面。所以导出链接也是当前搜索引擎排名的因素之一。绝不链接到其他网站的做法,并不是好的SEO办法。
 
 
TrustRank算法
 
        TrustRank是近年来比较受关注的基于链接关系的排名算法。TrustRank可以翻译为“信任指数”。
 
        TrustRank算法最初来自于2004年斯坦福大学和雅虎的一项联合研究,用来检测垃圾网站,并且于2006年申请专利。TrustRank算法发明人还发表了一份专门的PDF文件,说明TrustRank算法的应用。
 
TrustRank算法并不是有Google提出的,不过哦由于Google所占市场份额最大,而且TrustRank在Google排名中也是一个非常重要的因素,所以有些人误认为TrustRank是Google提出的。更让人糊涂的是,Google曾经把TrustRank申请为商标,但是TrustRank商标中的TrustRank指的是Google检测含有恶意代码网站的方法,而不是指排名算法中的信任指数。
 
        TrustRank算法基于一个基本假设:好的网站很少会链接到坏的网站,反之则不成立,也就是说,坏的网站很少链接到好的网站这句话不成立。正相反,很多垃圾网站会链接到高权威、高信任指数的网站,试图提高自己的信任指数。
 
        基于这个假设,如果能挑选出可以百分之百信任的网站,这些网站的Trustrank评为最高,这些TrustRank最高的网站所链接的网站信任网站稍微降低,但也会提高。与此类似,第二层被信任的网站链接出去的第三层网站,信任度继续下降。由于种种原因,好的网站也不可避免的会链接到一些垃圾网站,不过离第一层网站点击距离越近,所传递的信任指数越高,离第一级网站点击距离越远,信任指数将以此下降,这样,通过TrustRank算法,就能给所有网站计算出相应的信任指数,离第一层网站越远,成为垃圾网站的可能性越大。
 
        计算TrustRank值首先要选择一批种子网站,然后人工查看网站,设定一个初始TrustRank值,挑选种子网站的两种方式,一种是选择导出链接最多的网站,因为TrustRank算法就是计算指数随着导出链接的衰减。导出链接多的网站,在某种意义上可以理解为“逆向PR值”比较高。
 
        另一种挑选种子网站的方法是选PR值高的网站,因为PR值越高,在搜索结果页面出现的概率越大。这些网站才正是TrustRank算法最关注的、需要调整排名的网站,那些PR值很低的页面,在没有TrustRank算法时排名也很靠后,计算TrustRank意义就不大了。
 
        根据测算,挑选出两百个左右网站作为种子,就可以比较准确地计算出所有网站的TrustRank值。
 
        计算TrustRank随链接关系减少的公式有两种形式。一种是随着链接次数衰减,也就是说如果第一层页面TrustRank指数为100,第二层页面衰减为90,第三层衰减为80.第二种计算办法是按导出链接数目分配TrustRank值,也就是说,如果一个页面的TrustRank值为100,页面上有5个导出链接,那个链接将传递20%的TrustRank值,衰减和分配这两种计算方法通常综合使用,整体效果都是随着链接层次的增加,TrustRank值逐步降低。
 
        得出网站和页面的TrustRank值后,可以通过两种方式影响排名。一种是把传统排名算法挑选出的多个页面,根据TrustRank值比较,重新做排名调整。另一种是设定一个最低的TrustRank值门槛,只有超过这个门槛的页面,才被认为有足够的质量进入排名,低于这个门槛的页面将被认为是垃圾页面,从搜索结果中过滤出去。
 
        虽然TrustRank算法最初是作为检测垃圾的办法,但在现在的搜索引擎排名算法中,TrustRank概念使用更为广泛,常常影响大部分网站的整体排名,TrustRank算法最初针对的是页面级别,现在在搜索引擎算法中,TrustRank值也通常表现在域名级别,整个域名的信任指数越高,整体排名能力就越强。
 
Google PR
 
         PR是PageRank的缩写。Google PR理论是所有基于链接的搜索引擎理论中最有名的。PR是Google创始人之一拉里佩奇发明的,用于表示页面重要性的概念。用最简单的话说就是,反向链接越多的页面就是越重要的页面,因此PR值也就越高。Google PR有点类似于科技文献中互相应用的概念,被其他文献引用较多的文献,很可能是比较重要的文献。
PR的概念和计算
         我们可以把互联网历程成由结点和链接组成的有向图,页面就是一个个结点,页面之间的有向链接传递着页面的重要性。一个链接传递的PR值决定于导入链接所在页面的PR值,发出链接的页面本身PR值越高,所能传递出去的PR值也越高。传递的PR数值也取决于页面上的导出链接数目。对于给定PR值的页面来说,假设能传递到下级页面100份的PR,页面上有10个导出链接,每个链接能传递10份PR,页面上有20个导出链接的话,每个链接只能传递5份PR。所以一个页面的PR值取决于导入链接总数,发出链接页面的PR值,以及发出链接页面上的导出链接数目。
 
PR的两个比喻模型
         关于PR有两个著名的比喻。一个比喻是投票。链接就像民主投票一样,A页面链接到B页面,就意味着A页面对B页面投了一票,使得B页面的重要性提高。同时A页面本身的PR值决定了A所能投出去的投票力,PR值越高的页面,投出的票也更重要。在这个意义上,传统基于关键词匹配的算法是看页面直接说页面内容是什么,基于链接的PR则是看别人怎么评价这个页面。
         第二个比喻是随机冲浪比喻。假设一个访问者从一个页面开始,不停地随机点击链接,访问下一个页面,有时候这个用户感到无聊了,就再点击链接,就随机跳到另一个网址,再次开始不停地向下点击。所谓PR值,也就是一个页面在这种随机冲浪访问中被访问到的概率。一个页面导入链接越多,被访问的概率也越高,因此PR值也越高。
地址 : 浙江省湖州市吴兴区加利广场
QQ : 2279641406 547859428
电话:13735195038 传真:0572-2198989
电子邮件:cn-hope@163.com 网址:www.hzhope.com
后普网络 版权所有 Copyright © 2018 浙ICP备11012944号 网站地图 | 免责申明 | 联系我们