×

梯度提升决策树助力Facebook提升用户体验

消耗积分:1 | 格式:rar | 大小:0.7 MB | 2017-10-09

分享资料个

 Facebook 使用机器学习和排序模型给所有用户带来最佳体验,例如发送什么通知,在你的消息推送中放入什么文章,以及对于你想关注的人提些什么建议。高质量的机器学习模型对于找出最相关的内容来说很重要。我们观察了大量实时信号以制定最佳排序;例如,在过滤通知的使用情况中,我们观察某人是否已点击相似的通知,或者对应通知的文章获得了多少赞。由于每执行一次就会生成一个新通知推送,所以我们想要尽快返回发送通知的决策。
  更复杂的模型有助于提高预测的精度,提供更相关的内容。但更复杂的模型需要更长的 CPU 周期(CPU cycles),返回结果的时间也更长。考虑到这些限制,我们做不到对所有可能的候选模型进行评估。然而,通过提升模型效率,我们可以做到在相同的时间帧运用相同的计算资源评价更多的候选模型(inventory)。
  在本文中,我们比较了梯度提升决策树(gradient-boosted decision tree ,简称GBDT)这一类预测模型的不同实现,并描述了能产生更高效评估的 C++ 多方面改进。
  决策树模型
  决策树被普遍用作预测模型,该算法将关于对象的特征观察值映射到对象类的目标值。由于其非线性和快速求值的特点,它成为了机器学习、数据分析和统计学之中最常见的预测模型方法之一。在这些树状结构中,叶结点表征分类标签,而有向边表征产生这些分类标签的特征连接。
  决策树非常强大,但是训练数据中的小变动可以演化为决策树中的大变化。这可通过使用一项被称为梯度提升(gradient boosting)的技术来补救。即,为错误分类的训练实例提升权重,从而形成一个新的决策树。接着对这一步骤进行连续重复以获得新的决策树。最后的分值(scores)是决策树上每个叶节点分值的加权总和。
  模型通常很少更新,且训练复杂模型需要花费数小时。然而,在 Facebook 的大规模数据上,我们想要更频繁地更新模型,即按照毫秒间隔依次运行它们。Facebook 的很多后端服务是用 C++ 写的,因此我们利用这一语言的一些属性做了些改善,以产生只需要更短 CPU 周期进行求值的高效模型。
  下图是一个简单的决策树,它包含以下特征:
  今天某人 A 点击通知的数量(特征 F[0])
  对应通知的文章点赞数量(特征 F[1])
  某人 A 点击通知的总数量(特征 F[2])
  在不同的结点,我们查看了上述特征的值,并遍历整棵决策树以获取通知点击的概率。
  
  平面树(Flat tree)的实现
  决策树模型的朴素实现是通过一个带有指针的简单二叉树而完成的。然而,结点并不需要连续地存储于内存之中,因为这样二叉树并非很有效。另一方面,决策树通常是完整的二叉树(即二叉树的每个结点一定存在零值或两棵子树),它通过使用向量而压缩存储。指针并不需要空间,而每一结点的父结点和子结点可通过数组索引算法查看。我们将用这一实现对比这一章节的实验。
  编译树(Compiled tree)的实现
  每一个二叉树都能由一个复杂的三元表达式表征,而这个表达式能进行编译并链接到可直接在服务中使用的动态库(DLL)。需要注意的是,我们可以实时添加或更新决策树模型,而不需要重启服务。
  我们也可以利用 C++ 中的 LIKELY/UNLIKELY 注释(annotations)。它们是编译器发出指令的方向,并且能将分支预测更加偏向于跳转指令(jump instruction)「可能」出现的一侧。如果预测是对的,那么就意味着跳转指令将占有 0 个 CPU 周期。我们可以根据在批量中排序的或离线分析中的真实样本计算分支预测,这是因为训练和评估集的分布不应该改变太多。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

评论(0)
发评论

下载排行榜

全部0条评论

快来发表一下你的评论吧 !