在过去的十年中,互联网已经发展成为一个提供大规模在线服务的平台,它深刻地改变了我们交流、阅读新闻、购买产品和观看电影的方式。与此同时,前所未有的物品数量(我们使用术语物品指电影、新闻、书籍和产品。)在线提供需要一个可以帮助我们发现我们喜欢的项目的系统。因此,推荐系统是强大的信息过滤工具,可以促进个性化服务并为个人用户提供量身定制的体验。简而言之,推荐系统在利用大量可用数据做出可管理的选择方面发挥着关键作用。如今,推荐系统是亚马逊、Netflix 和 YouTube 等许多在线服务提供商的核心。回忆一下图1.3.3中亚马逊推荐的深度学习书籍的例子 . 使用推荐系统的好处有两方面:一方面,它可以大大减少用户寻找物品的努力,缓解信息过载的问题。另一方面,它可以为在线服务提供商增加商业价值,是重要的收入来源。本章将介绍推荐系统领域深度学习的基本概念、经典模型和最新进展,以及实现示例。
21.1.1. 协同过滤
我们从推荐系统中的重要概念——协同过滤 (CF) 开始旅程,它最初是由 Tapestry 系统创造的( Goldberg et al. , 1992 ),指的是“人们相互协作以帮助彼此执行过滤过程处理发布到新闻组的大量电子邮件和消息”。这个词已经丰富了更多的意义。从广义上讲,它是使用涉及多个用户、代理和数据源之间协作的技术来过滤信息或模式的过程。CF自问世以来有多种形式和众多的CF方法被提出。
总体而言,CF 技术可分为:基于内存的 CF、基于模型的 CF 及其混合体(Su 和 Khoshgoftaar,2009 年)。代表性的基于内存的 CF 技术是基于最近邻的 CF,例如基于用户的 CF 和基于项目的 CF (Sarwar等人,2001 年). 矩阵分解等潜在因子模型是基于模型的 CF 的示例。Memory-based CF 在处理稀疏和大规模数据方面存在局限性,因为它基于共同项目计算相似度值。基于模型的方法因其更好的处理稀疏性和可扩展性的能力而变得越来越流行。许多基于模型的 CF 方法可以使用神经网络进行扩展,从而通过深度学习中的计算加速产生更灵活和可扩展的模型 (Zhang等人,2019 年). 一般来说,CF 只使用用户-项目交互数据来进行预测和推荐。除了 CF 之外,基于内容和基于上下文的推荐系统在合并项目/用户的内容描述和上下文信号(例如时间戳和位置)时也很有用。显然,当有不同的输入数据可用时,我们可能需要调整模型类型/结构。
21.1.2。显式反馈和隐式反馈
为了了解用户的偏好,系统应收集他们的反馈。反馈可以是显式的也可以是隐式的 (Hu et al. , 2008)。例如, IMDb收集电影的星级评分,范围从 1 星到 10 星。YouTube 为用户提供了竖起大拇指和不竖起大拇指的按钮来显示他们的偏好。显然,收集明确的反馈需要用户主动表明他们的兴趣。尽管如此,明确的反馈并不总是很容易获得,因为许多用户可能不愿意对产品进行评级。相对而言,隐式反馈通常很容易获得,因为它主要关注对用户点击等隐式行为进行建模。因此,许多推荐系统都以隐式反馈为中心,隐式反馈通过观察用户行为间接反映用户的意见。隐式反馈的形式多种多样,包括购买历史、浏览历史、手表甚至鼠标移动。例如,购买了同一作者的多本书的用户可能会喜欢该作者。请注意,隐式反馈本质上是嘈杂的。我们只能猜测 他们的喜好和真实动机。用户看过电影并不一定表示对该电影有正面看法。
21.1.3。推荐任务
在过去的几十年里,已经研究了许多推荐任务。从应用领域来看,有电影推荐、新闻推荐、兴趣点推荐 ( Ye et al. , 2011 )等。也可以根据反馈和输入数据的类型来区分任务,例如,评级预测任务旨在预测显式评级。顶部-n推荐(项目排名)根据隐式反馈为每个用户个人对所有项目进行排名。如果还包括时间戳信息,我们可以构建序列感知推荐 (Quadrana等人,2018 年)。另一个流行的任务称为点击率预测,它也基于隐式反馈,但可以利用各种分类特征。为新用户推荐和向现有用户推荐新物品被称为冷启动推荐(Schein et al. , 2002)。
21.1.4。概括
-
推荐系统对个人用户和行业都很重要。协同过滤是推荐中的一个关键概念。
-
有两种类型的反馈:隐式反馈和显式反馈。在过去十年中,已经探索了许多推荐任务。