电子说
推荐系统简介
背景:
●场景多,模型计算复杂度高;
●流量大,对实时性要求高;
●占用硬件资源多,硬件成本高;
●模型结构存在- -致性,可通过定制算子获得加速;
以TensorFlow为backend ,算子数量多;此前,我们通过算子融合(类Faster Transformer),CUDA Graph等手段已经取得了不错的性能提升;利用CUTLASS进一步优化Attention和MLP计算, 可进步提升资源利用率。
全部0条评论
快来发表一下你的评论吧 !