GTC 2023:阿里巴巴CUTLASS优化探索推荐系统中的应用

电子说

1.2w人已加入

描述

  推荐系统简介

  背景:

  ●场景多,模型计算复杂度高;

  ●流量大,对实时性要求高;

  ●占用硬件资源多,硬件成本高;

  ●模型结构存在- -致性,可通过定制算子获得加速;

  以TensorFlow为backend ,算子数量多;此前,我们通过算子融合(类Faster Transformer),CUDA Graph等手段已经取得了不错的性能提升;利用CUTLASS进一步优化Attention和MLP计算, 可进步提升资源利用率。

gpu

gpu

 

gpu

gpu

gpu

gpu

gpu

gpu

gpu

gpu

gpu

gpu

gpu

gpu

gpu

gpu

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分