梯度提升决策树助力Facebook提升用户体验

消耗积分:1 | 格式:rar | 大小:0.7 MB | 2017-10-09

分享资料个

　Facebook 使用机器学习和排序模型给所有用户带来最佳体验，例如发送什么通知，在你的消息推送中放入什么文章，以及对于你想关注的人提些什么建议。高质量的机器学习模型对于找出最相关的内容来说很重要。我们观察了大量实时信号以制定最佳排序；例如，在过滤通知的使用情况中，我们观察某人是否已点击相似的通知，或者对应通知的文章获得了多少赞。由于每执行一次就会生成一个新通知推送，所以我们想要尽快返回发送通知的决策。
　　更复杂的模型有助于提高预测的精度，提供更相关的内容。但更复杂的模型需要更长的 CPU 周期（CPU cycles），返回结果的时间也更长。考虑到这些限制，我们做不到对所有可能的候选模型进行评估。然而，通过提升模型效率，我们可以做到在相同的时间帧运用相同的计算资源评价更多的候选模型（inventory）。
　　在本文中，我们比较了梯度提升决策树（gradient-boosted decision tree ，简称GBDT）这一类预测模型的不同实现，并描述了能产生更高效评估的 C++ 多方面改进。
　　决策树模型
　　决策树被普遍用作预测模型，该算法将关于对象的特征观察值映射到对象类的目标值。由于其非线性和快速求值的特点，它成为了机器学习、数据分析和统计学之中最常见的预测模型方法之一。在这些树状结构中，叶结点表征分类标签，而有向边表征产生这些分类标签的特征连接。
　　决策树非常强大，但是训练数据中的小变动可以演化为决策树中的大变化。这可通过使用一项被称为梯度提升（gradient boosting）的技术来补救。即，为错误分类的训练实例提升权重，从而形成一个新的决策树。接着对这一步骤进行连续重复以获得新的决策树。最后的分值（scores）是决策树上每个叶节点分值的加权总和。
　　模型通常很少更新，且训练复杂模型需要花费数小时。然而，在 Facebook 的大规模数据上，我们想要更频繁地更新模型，即按照毫秒间隔依次运行它们。Facebook 的很多后端服务是用 C++ 写的，因此我们利用这一语言的一些属性做了些改善，以产生只需要更短 CPU 周期进行求值的高效模型。
　　下图是一个简单的决策树，它包含以下特征：
　　今天某人 A 点击通知的数量（特征 F［0］）
　　对应通知的文章点赞数量（特征 F［1］）
　　某人 A 点击通知的总数量（特征 F［2］）
　　在不同的结点，我们查看了上述特征的值，并遍历整棵决策树以获取通知点击的概率。
　　
　　平面树（Flat tree）的实现
　　决策树模型的朴素实现是通过一个带有指针的简单二叉树而完成的。然而，结点并不需要连续地存储于内存之中，因为这样二叉树并非很有效。另一方面，决策树通常是完整的二叉树（即二叉树的每个结点一定存在零值或两棵子树），它通过使用向量而压缩存储。指针并不需要空间，而每一结点的父结点和子结点可通过数组索引算法查看。我们将用这一实现对比这一章节的实验。
　　编译树（Compiled tree）的实现
　　每一个二叉树都能由一个复杂的三元表达式表征，而这个表达式能进行编译并链接到可直接在服务中使用的动态库（DLL）。需要注意的是，我们可以实时添加或更新决策树模型，而不需要重启服务。
　　我们也可以利用 C++ 中的 LIKELY/UNLIKELY 注释（annotations）。它们是编译器发出指令的方向，并且能将分支预测更加偏向于跳转指令（jump instruction）「可能」出现的一侧。如果预测是对的，那么就意味着跳转指令将占有 0 个 CPU 周期。我们可以根据在批量中排序的或离线分析中的真实样本计算分支预测，这是因为训练和评估集的分布不应该改变太多。

下载并关注上传者 低至0.43元/天 开通VIP 免费下载

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

发评论

相关下载
相关文章

下载排行榜

PC5502负载均流控制电路数据手册
2025-12-19 22次下载

下载
飞利浦D8714收录机说明书
2025-12-02 12次下载

下载
人工智能+消费：技术赋能与芯片驱动未来
2025-11-26 6次下载

下载
H110主板CPU PWM芯片ISL95858HRZ-T核心供电电路图资料
2025-12-10 6次下载

下载
UWB653Pro USB口测距通信定位模块规格书
2025-12-16 5次下载

下载
⼯业电源&模块电源产品⼿册
2025-11-28 5次下载

下载

梯度提升决策树助力Facebook提升用户体验

如何助力小家电制造商提升美容仪品质

决策树引擎解决方案

STM32助力新产品设计提升安全性

自动驾驶决策概况

facebook智能手表专利介绍

提升机轴维修的方法汇总

基于遗传优化决策树的建筑能耗预测模型

关于机器学习的十大经典算法

基于文本挖掘和决策树的中国手游产业分析

基于C4.5决策树的HTTPS协议加密流量分类

基于用户特征提取的微博异常用户检测方法

基于非均衡数据分类的犹豫模糊决策树

基于XGBoost的树突状细胞算法综述

深度学习网络的多分类器入侵检测方法

可提高心电信号分类识别准确率的模糊决策树

基于4Bit编码的深度学习梯度数据压缩算法

广义可能性模糊时态计算树逻辑的模型检测

基于ExtraTrees的差分隐私保护算法DiffPETs

智能机器伦理决策设计及其研究综述

基于PCA和随机树的数据库异常访问检测算法

解读Facebook Oculus VR手势追踪资料下载

6个办法有效提升电路板的电磁兼容性资料下载

案例：如何提升5G用户终端语音质量？资料下载

基于深度学习的自适应梯度阀值判别方法

一种多模型集成的网络论坛发帖量预测模型

基于车联网的新型身份认证设计方案

LTE网络CQI提升优化案例的详细资料说明

如何提升小波变换解决风廓线雷达的去地杂波

如何使用最优二叉决策树分类模型进行奶牛运动行为的识别

如何使用针对不平衡数据进行决策树改进方法资料说明

基于层次聚类和极限学习机的母线短期负荷预测

xgboost超参数调优技巧 xgboost在图像分类中的应用

xgboost与LightGBM的优势对比

xgboost的并行计算原理

决策树：技术全解与案例实战

一种基于决策树的飞机级故障诊断建模方法研究

模型算法总结

为什么GBDT用回归树不用分类树？CART决策树是怎么计算基尼值呢？

什么是集成学习算法-1

基于集成学习的决策介绍（下）

基于集成学习的决策介绍（上）

关于机器学习的六种基础算法来源、用途、演变

大数据—决策树

使用TensorFlow决策森林创建提升树模型

机器学习之决策树生成详解

决策树的结构/优缺点/生成

什么是决策树模型，决策树模型的绘制方法

决策树的判断标准及算法

决策树的一般流程及应用

决策树的基本概念/学习步骤/算法/优缺点

使用基尼不纯度拆分决策树的步骤

机器学习中常用的决策树算法技术解析

建立决策树的逻辑

决策树的构成要素及算法

一文知道决策树的优缺点

详谈机器学习的决策树模型

详解机器学习决策树的优缺点

梯度提升方法(Gradient Boosting)算法案例

开发成功的机器学习应用程序需要一定的“偏方”

决策树和随机森林模型

什么是决策树?决策树算法思考总结

下载排行榜

PC5502负载均流控制电路数据手册

飞利浦D8714收录机说明书

人工智能+消费：技术赋能与芯片驱动未来

H110主板CPU PWM芯片ISL95858HRZ-T核心供电电路图资料

UWB653Pro USB口测距通信定位模块规格书

⼯业电源&模块电源产品⼿册