|
发表于 2012-10-9 10:47:34
|
显示全部楼层
|阅读模式
来自 中国–上海–上海–闵行区
倒排文件就是用词来作为索引的一个数据结构,显然,q中的词必须是包含在倒排 文件词表中才有意义。有了这样的q,它的每一个元素都对应倒排文件中的一个倒 排表(文档编号的集合),记作L(t) ,它们的交集即为对应查询的结果文档集合, i 从而实现了查询和文档的匹配。上述过程的基本假设是:用户是希望网页包含所 输入查询文字的。 2. 结果排序 上面,我们了解了得到和用户查询相关的文档集合的过程。这个集合的元素 需要以一定的形式通过计算机显示屏呈现给用户。就目前的技术情况看,列表是 最常见的形式(但人们也在探求新的形式,如Vivisimo 引擎将结果页面以类别的 形式呈现)。给定一个查询结果集合,R={r , r , …, r },所谓列表,就是按照某种 1 2 n 评价方式,确定出R中元素的一个顺序,让这些元素以这种顺序呈现出来。笼统 地讲,ri和q的相关性(relevance )是形成这种顺序的基本因素。但是,有效地定 义相关性本身是很困难的,从原理上讲它不仅和查询词有关,而且还和用户的背 景,以及用户的查询历史有关。不同需求的用户可能输入同一个查询,同一个用 户在不同的时间输入的相同的查询可能是针对不同的信息需求。为了形成一个合 适的顺序,在搜索引擎出现的早期人们采用了传统信息检索领域很成熟的基于词 汇出现频度的方法。大致上讲就是一篇文档中包含的查询(q)中的那些词越多, 则该文档就应该排在越前面;再精细一些的考虑则是若一个词在越多的文档中有 出现,则该词用于区分文档相关性的作用就越小。这样一种思路不仅有一定直觉 上的道理,而且在倒排文件数据结构上很容易实现。因为,当我们通过前述关键 词的提取过程,形成一篇文档的关键词集合,p = {t , t , …, t }的时候,很容易同 1 2 n 时得到每一个ti在该文档中出现的次数,即词频,而倒排文件中每个倒排表的长度 则对应着一个词所涉及的文档的篇数,即文档频率。然而,由于网页编写的自发 性、随意性较强,仅仅针对词的出现来决定文档的顺序,在Web上做信息检索表 现出明显的缺点,需要有其他技术的补充。这方面最重要的成果就是前面提到过 的PageRank。通过在预处理阶段为每篇网页形成一个独立于查询词(也就和网页 内容无关)的重要性指标,将它和查询过程中形成的相关性指标结合形成一个最 终的排序,是目前搜索引擎给出查询结果排序的主要方法。
|
评分
-
查看全部评分
|