挑战千亿模型参数!1.4秒预报全球天气!华为重磅发布盘古大模型3.0

描述

电子发烧友原创 章鹰
 
7月7日,华为开发者大会在东莞松山湖正式揭开帷幕,华为常务董事、华为云CEO张平安在下午举行的主题会议上,正式重磅发布盘古大模型3.0。张平安表示:“盘古大模型不会做诗只会做事。它要帮助各行各业,在各个领域让AI赋予价值,在矿山、金融、政务、气象,我们有很多的工作小组派下去,为各个行业赋予价值。我们坚持的方向,AI for industry。”
 

盘古大模型 
图:华为常务董事、华为云CEO张平安

 
2023年,中国的AI团队开始密集发布各种大模型,从3月开启到7月就有七款大模型发布,清华智谱AI研发的GLM-1308在3月14日开启内测; 百度于3月 16 日推出了其最新的生成式人工智能产品和知识增强型大语言模型文心一言;4月10日商汤公布“日日新Sensenova”;阿里4月11日推出大语言模型“通义千问”;科大讯飞在5月6日推出星火认知大模型V1.0版本;时隔一个月,6月9日又推出星火大模型V1.5版;到7月6日,2023世界人工智能大会在上海开幕,中国电信发布大语言模型Telechat。在这届大会的“迈向通用人工智能”主题展区,集中展示了国内外的30多款大模型。可以说大模型卷起来了。

盘古大模型 
图:电子发烧友根据公开资料整理

 
华为云推出的盘古大模型3.0的架构有何精妙之处?在从通用人工智能迈向行业人工智能,走深向实的道路上,华为云的盘古云大模型3.0有哪些接地气的行业应用?在气象预报领域,盘古云大模型研发团队的研发成果为何能登上国际一流期刊《自然》(Nature)杂志?发布会的现场揭示了许多核心疑问。
 
聚焦行业应用,盘古大模型推出“5+N+X”三层架构
 
“今年上半年,国内厂商发布了80多个AI大模型,我们注意到这些大模型发布后都具有非常好的对话能力,文案生成能力,很多大模型都会做诗,有的大模型甚至都会作画。华为盘古大模型不会写诗,只会做事,盘古大模型需要扎根行业,为各个行业带来价值。”华为云CEO张平安强调说。
 
“我们发现当前通用的大模型落地行业应用存在三大挑战:1、大模型通用性强,但专业性弱,落地行业需要专业知识,了解行业的工作流程,给出专业回答;2、大模型知识多,但是技能不足;3、数据是企业的核心资产之一,大模型可以有效的存储和挖掘知识,在训练和使用大模型需要保证企业数据的安全合规。” 华为云人工智能领域首席科学家田奇表示。
 
为了应对这些挑战,华为将盘古大模型3.0定位为面向行业的大模型系列,包括“5+N+X”三层架构。

盘古大模型

L0层的盘古基础大模型,包括自然语言、视觉、多模态、预测、科学计算五个基础大模型,提供满足行业场景中的多种技能需求。盘古3.0为客户提供100亿参数、380亿参数、710亿参数和1000亿参数的系列化基础大模型,匹配客户不同场景、不同时延、不同响应速度的行业多样化需求。同时提供全新能力集,包括NLP大模型的知识问答、文案生成、代码生成,以及多模态大模型的图像生成、图像理解等能力,这些技能都可以供客户和伙伴企业直接调用。无论多大参数规模的大模型,盘古提供一致的能力集。
 
L1层是N个行业大模型,华为云既可以提供使用行业公开数据训练的行业通用大模型,包括政务,金融,制造,矿山,气象等大模型;也可以基于行业客户的自有数据,在盘古大模型的L0和L1层上,为客户训练自己的专有大模型。
 
L2层为客户提供了更多细化场景的模型,更加专注于政务热线、网点助手、先导药物筛选、传送带异物检测、台风路径预测等具体行业应用或特定业务场景,为客户提供“开箱即用”的模型服务。
 
在煤矿领域,企业用户通过盘古视觉大模型,识别采掘过程中的大块的煤和大块的岩石。山东能源集团及其技术公司云鼎科技,已经和华为深度合作,开发了21个场景化的应用,覆盖了7大业务系统。盘古矿山大模型已经在全国8个矿井规模使用,一个大模型可以覆盖煤矿的采、掘、机、运、通、洗选等业务流程下的1000多个细分场景,让更多的煤矿工人能够在地面上作业,不仅能让煤矿工人的工作环境更加舒适,而且可以极大地减少安全事故。
 
在铁路领域,盘古铁路大模型能精准识别现网运行的67种货车、430多种故障,无故障图片筛除率高达95%,成为货运列检员身边有力的数字助手,将列检员从每日数百万张的“图海”检测中解放出来。检测效率提升20倍。

盘古大模型

“原来传统方式预测10天台风的路径,需要在3000台服务器的高性能计算机集群上花费5小时进行仿真。现在基于预训练的盘古气象大模型,通过AI推理的方式,研究者只需单台服务器上单卡配置,10秒内就可以获得更精确的预测结果。”张平安表示,“今年5月份,中国气象局和盘古进行了合作,预测玛娃台风路径,盘古提前10天精确预测玛娃台风的路径,盘古预测的速度和精度已明显优于传统的方法。在刚刚结束的第19届世界气象大会上,欧洲气象局也指出,华为云盘古气象大模型在精度上有不可否认的能力,对2月份芬兰寒潮的预测,比欧洲的预测方法提前2天,温度预测更加接近实际发生的温度。”
 
盘古气象大模型的最新成果刚刚登上Nature正刊,只需要1.4秒就能完成24小时全球气象预报。
 
扎根AI根技术,实现行业大模型做到四大关键点
 
盘古大模型3.0最底层的基础大模型包括100亿参数、380亿参数、710亿参数和1000亿参数四个版本,预训练使用了超3万亿tokens。
 
“要适配行业的不同场景,就必须做完全的解耦。我们将大模型和能力层解耦之后,不管你使用的是380亿参数的模型,还是1000亿参数的模型,能力级是不变的,是一致的。预测的大模型可以调用能力集,科学大模型也可以调用多模态能力。”张平安指出。

盘古大模型 
华为云人工智能领域首席科学家田奇介绍如何从基础大模型炼成行业大模型

“盘古大模型基础层L0层,我们做了上百种能力,包括语言模型的实时问答,文案生成能力,视觉模型的检测分割,三维重建能力,多模态模型的文生图能力,以及模型编排和插件等高阶能力。盘古大模型的各项能力能够做到解耦和按需组合,企业客户可以根据具体的场景需求选择所需要的数据集,使用盘古大模型工作流,快速开发行业大模型性能力。” 华为云人工智能领域首席科学家田奇表示。
 
实现行业大模型的四大关键点,田奇分析指出:一是沉淀行业知识;二是淬炼行业技能,结合专家和行业数字环境的反馈进行强化学习,以达到符合行业应用的最佳结果;三是对话专业工具,除了人与机器的对话,我们更多解决的是机器与机器,机器与工具的对话,将大模型与业务系统进行融合,产生对话和交流,让大模型可以调用大量的行业资产和工具;四是保证安全合规,盘古提供公有云、混合云大模型专区,这三种模式保证安全部署。建立长效机制,确保大模型安全合规,包括数据集来源和使用合规,数据全生命周期安全,构建完整的数据标注以及审核机制,构建模型合规使用的政策,确保大模型的使用边界。
 
华为在最底层构建了以鲲鹏和昇腾为基础的AI算力云平台,以及异构计算架构CANN、全场景AI框架昇思MindSpore,AI开发生产线ModelArts等,为大模型开发和运行提供分布式并行加速,算子和编译优化、集群级通信优化等关键能力。基于华为的AI根技术,大模型训练效能可以调优到业界主流GPU的1.1倍。
 
张平安还宣布,单集群2000P Flops算力的昇腾AI云服务在华为云的乌兰察布和贵安AI算力中心同时上线。昇腾AI云服务除了支持华为全场景AI框架昇思MindSpore外,还支持Pytorch、Tensorflow等主流AI框架。同时,这些框架中90%的算子,都可以通过华为端到端的迁移工具平滑迁移到昇腾平台。
 
小结:
 
行业专家强调AI赋能千行百业,行业大模型非常重要。通用大模型有很强的能力,但并不能解决很多企业的具体问题。企业的大模型应用需要综合考虑行业专业性、数据安全、持续迭代和综合成本等因素。基于行业大模型构建自己的专属模型,也许是企业更优的选项。
 
盘古大模型3.0已经开始在10多个行业践行智能化的能力,目前国内在金融、政府、教育、电信、能源领域,多家公司已经发布了行业大模型,竞争日益激烈,具体客户是否能为华为云、百度云、科大讯飞等公司推出的行业大模型买单,关键还要看各家迭代的模型在实际应用当中的应用效果和价值。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分