AI框架历史演进和趋势探索

描述

电子发烧友网报道(文/李弯弯)AI框架是一种底层开发工具,是集深度学习核心训练和推理框架、基础模型库、端到端开发套件、丰富的工具组件于一体的平台。

有了AI框架,工程师在工作时调试算法,就可以更快速、更高效。通俗一点讲,AI框架相当于是AI时代的操作系统,如同PC时代Windows,移动互联网时代的iOS和安卓。
 
AI框架发展现状和趋势
 
AI框架的历史并不算长,从2010年诞生的Theano算起,至今不过十二年时间。2017年后,早期的Theano、Caffe、Torch等框架逐渐销声匿迹,2016年前后出现的TensorFlow(谷歌)、PyTorch(Facebook)、飞桨(百度)逐渐占据市场。
 
从目前市场占有情况看,产业界以TensorFlow为主,学术界以PyTorch为主。与TensorFlow过于注重工业,PyTorch专注学界不同,飞桨的特性在于工业学界两手抓,通过动态图自动解析编译静态图的技术,兼顾了学界的灵活,同时也实现了产业界希望的高效。
 
除了TensorFlow、PyTorch、飞桨,深度学习框架还包括由Amazon设计研发并开源的MXNet、微软在github上开源的CNTK、华为推出的MindSpore、北京一流科技有限公司开发的OneFlow,以及清华大学自研的Jittor,和腾讯、字节跳动、360开源的Angel、BytePS、TensorNet。
 
过去这些年,AI框架已形成较为完整的技术体系,当前主流AI框架的核心技术演化出三大层次,分为基础层、组件层和生态层,其中基础层实现AI框架最基础核心的功能,具体包括编程开发、编译优化以及硬件使能三个子层。
 
从技术生态体系中的功能定位看,AI框架对下调用底层硬件计算资源,对上支撑AI应用算法模型搭建,提供算法工程化实现的标准环境,是AI技术体系的关键核心。
 
AI框架技术持续演进,历经萌芽阶段、成长阶段、稳定阶段,当前已进入深化阶段。AI框架正向着超大规模AI、全场景支持、安全可信等技术特性深化探索。
 
AI框架面临的挑战
 
然而在这个探索的过程中,面临诸多挑战。在超大规模AI方面,当前超大规模AI成为新的深度学习范式。OpenAI于2020年5月发布GPT-3模型,包含1750亿参数,数据集达到45T,在多项NLP任务中超越了人类水平。这种超大规模的模型参数及超大规模的数据集的AI大模型范式,实现了深度学习新的突破。
 
产业界和学术界看到这种新型范式的潜力后纷纷入局,继OpenAI后,华为基于MindSpore框架发布了盘古大模型、智源发布了悟道模型、阿里发布了M6模型、百度发布了文心模型等。超大规模AI正成为下一代人工智能的突破口,也是最有潜力的强人工智能技术。
  
超大规模AI需要大模型、大数据、大算力的三重支持,这就对AI框架提出了新的挑战,比如内存墙,大模型训练过程中需要存储参数、激活、梯度、优化器状态,鹏程 . 盘古一个模型的训练就需要近4TB的内存。算力墙,以鹏程 . 盘古2000亿参数量的大模型为例,需要3.6EFLOPS的算力支持,要求必须构建大规模的异构AI计算集群才能满足这样的算力需求,同时算力平台要满足智能调度来提升算力资源的利用率。还有通信墙、调优墙、部署墙等。
 
在全场景支持方面,随着云服务器、边缘设备、终端设备等人工智能硬件运算设备的不断涌现,以及各类人工智能运算库、中间表示工具以及编程框架的快速发展,人工智能软硬件生态呈现多样化发展趋势。但主流框架训练出来的模型却不能通用,学术科研项目间难以合作延伸,造成了深度学习框架的“碎片化”。
 
目前业界并没有统一的中间表示层标准,导致各硬件厂商解决方案存在一定差异,以致应用模型迁移不畅,增加了应用部署难度。因此,基于AI框架训练出来的模型进行标准化互通将是未来的挑战。
 
然而即使面临诸多挑战,过去两年,行业一直在持续探索,并取得一定突破,如2020年华为推出昇思MindSpore,在全场景协同、可信赖方面有一定的突破;旷视推出天元MegEngine,在训练推理一体化方面深度布局等。
 
整体而言,在人工智能体系中,AI框架处于贯通上下的腰部位置,下接芯片、上承应用,是一个关键枢纽,是推动AI应用大规模落地的关键力量。因此对于企业来说,克服AI框架当前面临的挑战,不断探索新趋势,进行技术创新,完善技术、功能和生态是关键。
 
 

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 相关推荐
  • AI

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分