基于传统信息检索技术的搜索引擎一般按照用户提交的查询获得一系列搜索结果,经过相关性排序之后返回给用户。相关研究表明,用户提交给搜索引擎的査询通常是短査询,且经常具有歧义性和宽泛性。另外,不同的用户在使用同一个查询词时,其查询需求也往往是不同的。此时若搜索引擎只进行相关性排序,则会面临搜索结果冗余性过大、无法有效覆盖用户意图的问题,对用户体验产生负面影响。为了满足用户需求,现有的搜索引擎在搜索排序过程中必须有效应对查询歧义性问题。搜索结果多样化是解决这个问题的方法之一,其目标是尽量提升搜索结果的多样性,让搜索结果尽可能多地覆盖不同用户的查询意图,以确保至少有一个结果可以命中实际的用户需求。和传统的搜索排序模型仅考虑文档和查询的相关性不同,多样化排序模型还需要进一步考虑文档的新颖性或者结果集对不同用户意图的盖度。现有的多样化算法,根据是否显式地衡量查询包含潜在用户意图所对应的子话题,可以分为隐式多样化模型和显式多样化模型。隐式多样化模型通常只考虑文档之间的相似性,即认为一份结果文档集中的每一个结果文档,彼此之间的不相似度越高,多样化程度越高;而显式多样化模型则显式地考虑不同查询所对应的不同用户意图(以子话题表示),通过衡量结果文档集对不同子话题覆盖的广度来衡量整体的多样化程度。根据多样化特征是人工指定的还是通过监督式学习自动获取的,可以分为启发式模型和学习式模型(也称为非监督式模型和监督式模型)。启发式模型绠入工指定的文档相似度或子话题覆盖程度等相关特征来判断每个文档对多样化的贡献,而学习式模型则可以通过监督式学习,自动地学习到最优化的多样化指标这两种分类方法相互正交,理论上显式多样化模型优于隐式多样化模珰,监督式模型优于非监督式模型,但实际上模型的具体表现也可能受到训练数据总量、子话题质量等其他因素影响。另外,最近学界对强化学习的研究也对信息检索领域产生了一定的影响,由于多样化排序过程也可以被视为一个依次选择每一个候选文档的决策过程,因此也有学者将强化搜索结果多样化领域。本文索结果多样化的定义,并对现有多样化算法进行分类整理详细介绍了每个类别中的代表性方法我们还进一步介绍了搜索结果多样性评价方法,并给出了一系列方法的对照实验结果。最后,我们对搜索结果多样化技术研究的方向进行了展望。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
全部0条评论
快来发表一下你的评论吧 !