商汤科技发布5.0多模态大模型,综合能力全面对标GPT-4 Turbo
4月23日,商汤科技董事长兼CEO徐立在2024商汤技术交流日上发布了行业首个云、端、边全栈大模型产品矩阵,能够满足不同规模场景应用需求;升级“日日新SenseNova 5.0”大模型体系,综合能力全面对标GPT-4 Turbo。
此外对于文生视频徐立也表示商汤科技很快就会发布相关的平台产品。
备受瞩目的商汤科技“日日新SenseNova” 5.0多模态大模型独特地采用了混合专家(MoE)架构,能够无缝支持多达10T Tokens的中英文训练数据,并在此基础上,推理合成数据更是可高达数千亿Token。尤为值得一提的是,该模型在进行推理计算时,其上下文窗口可以扩展至约200K Token范围,使得其综合能力中的知识、推理、数学、代码等方面均能全面对标GPT-4Turbo。
商汤科技的领导团队表示,这是业界首个真正意义上的“云、端、边”全栈大模型产品矩阵,旨在满足各种规模场景的应用需求。他们坚信,公司的技术领先地位将进一步加速生成式AI向产业落地的全面跃迁,从而实现大模型的按需所取。
商汤科技的董事长兼首席执行官徐立先生表示,在遵循尺度定律(Scaling Law)的原则下,商汤科技始终致力于推动自身大模型的研发工作,并将持续探索大模型能力的KRE三层架构(知识-推理-执行),不断突破大模型能力的边界。他充满信心地指出,“我们深信,2024年将会是端侧大模型爆发的重要年份。”
据了解,自去年4月首次亮相以来,商汤科技的“日日新SenseNova”大模型体系已经成功推出了五个重大版本迭代。而此次的更新重点则集中在提升了知识、数学、推理以及代码能力等多个方面,全面对标GPT-4 Turbo,并在主流客观评测中达到甚至超过了GPT-4 Turbo的水平。
全部0条评论
快来发表一下你的评论吧 !