提高排序效果和实验的效率推特搜索相关架构分析

消耗积分:1 | 格式:rar | 大小:0.7 MB | 2017-09-30

分享资料个

　　每天，全世界几百万的用户都在Twitter上搜索着发生的新鲜事。在重大事件期间，比如刚刚过去不久的2016欧洲杯，我们观察到在用户前来Twitter查看最新战况时，搜索服务会出现流量的尖峰，并且整体流量随着此事件的推移而稳步上升。Twitter的搜索质量组就是负责给用户返回质量最好的结果。

　　相比于传统的信息检索产品，Twitter的搜索面临的挑战是绝无仅有的，原因如下：

　　时效性：我们大部分的搜索请求都对信息的话题性和实时性有着强烈的需求。世界局势瞬息万变，在某些情况下，甚至几分钟前的搜索结果就会显得过时和不相关。推荐的搜索词条，拼写纠正和相关搜索词等，都需要保证新鲜和及时。

　　文档集合庞大：搜索的候选文档集合非常巨大，每天有几十亿条各种语言的新的Twitter生成。

　　文档格式：Twitter的文档有其特殊的属性：140个字符的非结构文本文字，但是包含了丰富的实体类别，有“#”符合、“@”符合、图像、视频和站外链接。不同于网站页面，Twitter之间没有超链接，因此类似PageRank的基于链接的算法不能直接拿来用于Twitter的排序。

　　多种结果类型：搜索的结果页是多种搜索结果的聚合，包括Twitter、其它用户账号、图像、视频、新闻、相关搜索和拼写候选词等。各种类型的结果需要一起参与排序，使得最后聚合的结果页满足用户的搜索意图。

　　个性化：每一位搜索用户都有自己的社交网络、兴趣爱好、地理位置和语言偏好，因此搜索结果需要个性化定制以满足相关性。

　　为了在很短的延迟内返回相关的、高质量的搜索结果，我们需要在多个领域解决技术挑战：信息检索、自然语言处理、机器学习、分布式系统、数据科学等等。

　　在过去几个月中，我们投入了大量精力在搜索相关性的基础框架建设，目的是提高排序效果和实验的效率。这篇博文介绍了一些重点工作。注意，这与我们的召回Twitter的核心索引和检索平台（没有排序）有所区别。

　　实时信号消化

　　我们排序模型中用到的信号的变化性和时效性对最终的搜索结果质量有着巨大的影响。而且，当Twitter被建索引之后许多信号都会迅速改变，因此我们需要及时更新它们。我们基于Heron写了一套新的信号消化器来处理原始信号流，为我们产品的排序模块提供特征。我们添加了灵活的模式动态地对新特征编码和解码，而尽可能少的修改代码。随着Twitter应用的升级，我们可以快速地添加和测试在离线实验中表现出色的新的排序信号。

　　快速、轻量级实验

　　我们实现从想法-》验证-》迭代这个周期的速度越快、代价越小，我们可以验证的想法就越多，产生的创新也越多。我们重度依赖传统的A/B测试，同时也建立了一个互补的离线实验系统，使得测试效率更高。Twitter的搜索结果和搜索词变化迅速。因此，为了将信号从噪音中分割开来，我们冻结特定的时间节点的世界状态，构建了一个沙盒环境，以至于我们可以根据想要完成的测试来产生稳定的、可重复的结果。为了更好的理解，我们开发了工具来分析和显示的结果之间的差异，并且可以从内部评委处容易地获得他们根据我们的搜索质量判断准则给出的打分标签。一个特别好的优势是，这使我们能够验证庞大的指数级变化，如给检索增加新的索引字段和标识的更新等等，还可以在部署产品之前对结果精细地打磨。

　　训练和部署机器学习模型

　　机器学习的模型常用于搜索排名，因为他们提供了一个原则性和自动化的方式来优化特征的权重和整合新的排序特征。为了使它们效果最好，重要的是要正确识别需优化的目标函数，使其与用户最终的满意度相关联。我们建立了一个管道，它可以无缝地收集训练数据集用于模型的训练和验证，并将训练完成的模型部署到生产服务器。数据规模带来了额外的挑战，如搜索排名第一阶段发生在索引碎片，大量与查询词匹配的文档在CPU资源、内存和延迟约束很严格的情况下进行打分。我们与Twitter Cortex团队创建了一个轻量级的运行系统，它可以支持在这些约束条件下运行模型，并且用我们内部的机器学习平台工具训练得到的排序模型部署到线上使用，如whetlab。

　　这些都是支持我们测试的关键模块，并且能够提升搜索的相关性，使搜索更好地为我们的用户服务。在未来的文章中，我们将深入介绍近期正在进行的搜索质量和项目的具体方面。敬请关注！

下载并关注上传者 低至0.43元/天 开通VIP 免费下载

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

发评论

相关下载
相关文章

下载排行榜

暂无相关数据

提高排序效果和实验的效率推特搜索相关架构分析

单片机--数据排序实验

C语言冒泡排序工程代码汇总

提高开关电源效率的电路技术

基于干耦合超声检测Lamb波信号分析及实验

基于改进HHT的脉搏信号分析及实验

多服务器模式下的属性基多关键字排序检索方案

可提高瓦斯风险预测准确率的ELM模型

基于加权LeaderRank的用户社交网络排序算法

基于蜕变测试的用户搜索引擎性能分析

可提高隐私数据安全性的可搜索加密方案

如何提高WINCC组态的效率

一种基于用户偏好的权重搜索及告警选择方法

搜索结果多样化及其算法综述

基于文本的细粒度美妆图谱视觉推理问题

一种基于排序学习的软件众包任务推荐方法

终端区管制运行效率的集成综合评估模型

基于关系图谱词频的实体搜索与定位算法

基于编码-解码卷积架构的联合策略网络

LICi算法抵抗积分攻击的相关实验及分析

HPEC应用子程序线程推测并行性实验分析

基于深度信念网络的实体识别算法

结合搜索与Double DQN的非完备信息博弈算法

以进化算法为搜索策略实现神经架构搜索的方法

如何提高隔离式电源的效率

一种改进的深度神经网络结构搜索方法

工具SemExpr可实现gadget搜索与语义分析

CNN图像识别的路径搜索设计方案

粗粒度可重构阵列架构相关实践

基于多标签策略进行答案搜索的CKBQA系统

使用Arduino实现三彩渐变效果实验的资料合集免费下载

如何解决多源数据融合分析过程灵活性差和处理效率低的问题方法说明

根据标题利用API优化电商搜索功能：提升转化率

微软推出Edge搜索栏，提升用户搜索效率

如何提高半导体测量的精度和效率

如何提高电源适配器的效率因数？

马斯克收购推特后经营状况很不理想 推特X平台或失败

FPGA排序-冒泡排序介绍

随机数字排序教程

推特广告收入下降50% 但是马斯克感谢苹果和迪士尼死心踏地

ChatGPT大型语言模型搜索架构和成本

马斯克突然开除80%推特合同工

推特员工抗议马斯克裁员75%计划

希尔排序的基本思想

马斯克收购推特暂停 交易陷入危机

马斯克放弃收购推特 到底是什么情况？彩礼太多了吗

马斯克将成为推特临时CEO，预计在完成收购推特后接任

马斯克440亿美元收购推特成功

马斯克440亿美元收购推特，特朗普称马斯克给他解封也不回推特

C语言排序中快速排序的技巧

Twitter已永久封停特朗普账户

FB和推特紧急删除特朗普暴徒视频

推特:特朗普账号将被冻结12小时

基于鳍型芯片架构提高LED效率的解决方案

荷兰检方已证实特朗普推特账号被黑

快讯：推特遭大规模黑客入侵 欧盟裁决苹果无需补交130亿税款

C语言: Leetcode 33搜索旋转排序数组

微软欲修复Windows搜索效率低的问题

大数据怎样提高工作的质量和效率

插入排序和冒泡排序哪个更牛逼？

加速设计的方法在于合理使用数字电源和电源轨排序

神经架构搜索详解

下载排行榜

马斯克收购推特后经营状况很不理想推特X平台或失败

马斯克收购推特暂停交易陷入危机

马斯克放弃收购推特到底是什么情况？彩礼太多了吗

快讯：推特遭大规模黑客入侵欧盟裁决苹果无需补交130亿税款