HITS算法,网上有比较详细介绍的文章并不多。从现在搜索引擎算法来看,HITS算法扮演着很重要的位置。是比较权威和使用广泛的算法之一。HITS算法要比PageRank算法复杂些,但可以用简单的形式描述其本质,同时也会给出其工作原理的示例。
HITS算法,首先要做的是判别与主题相关的网页集合,要分别为每个提交给搜索引擎的用户查询判定出一个主题相关网页集。如果网页满足下面的条件,便可判定它们是与主题相关的:
a)这些网页属于一个网页集合,且网页集合中含有与用户查询最相关的文本。
b)这些网页链向满足a条件的网页,或是满足a条件的网页链向该网页。
这里有一个重要的链接假设是部分基于“链接——内容”假设的。也就是说,如果一个网页与主题相关的网页有链接关系,即使它并不含有与主题相匹配的文本信息(至少从用户查询文本来看是这样的),该网页也可能是与主题相关的。
即使是根据文本内容判定出来的相关网页,有些时候也并不相关,因为在实践中很难判定主题相关性,尤其是那些本身就有歧义的查询。一个经典的例子就是“美洲虎”。用户可能是想要查询动物,或以该词命名的汽车的相关信息。结果,返回的与主题相关的网页却是不全的,且只是部分相关的。但Kleinberg的试验表明,这并不是一个严重问题。
最新评论
35 周 2 天之前
37 周 3 天之前
1 年 17 周之前