斯坦福继Flash Attention V1和V2又推出Flash Decoding

深度学习自然语言处理 2024-03-13 867

斯坦福大学此前提出的FlashAttention算法，能够在BERT-large训练中节省15%，将GPT训练速度提高2/3。此后又提出FlashAttention V2，拥有了更好的并行性和工作分区，让计算提速200%，上下文长度扩展更任性！

Flash-Decoding不仅借鉴了FlashAttention的优点，同时可以显著加快推理过程中的注意力，使非常长的序列的生成速度提高8倍。也可以极大提高了encoding速度。

审核编辑：刘清

打开APP阅读更多精彩内容

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

全部0条评论

快来发表一下你的评论吧 !

完善资料，
赚取积分