云知声山海大模型的训练优化方法及应用实践

云知声 2024-10-12 888

描述

由AI大模型工场主办的AI大模型生态暨算力大会在京举行。作为国内最具影响力与最懂大模型的AI生态大会，此次大会以「AI NATIVE，生成未来」为主题，围绕大模型、算力、数据产业、基础设施全产业链、应用场景等多个维度展开深度剖析与对话。

云知声 AI Labs 研发副总裁刘升平应邀出席论坛并作主题演讲，以《山海大模型的训练优化方法及应用实践》为题，深入剖析大模型训练与优化之道，并结合具体实践案例，带领与会人员进一步了解大模型在多领域的落地应用和创新成果。

山海持续进化背后，大模型训练与优化之道

云知声是国家级专精特新“小巨人”企业，2018年起连续六年上榜CB Insights全球人工智能独角兽榜单；自2018年起连续5批参与承建6项国家重点研发计划（“科技创新2030-新一代人工智能重大项目”），承担北京科技计划3项；先后获得北京科技进步奖一等奖、吴文俊人工智能科技进步奖、福建省科技进步奖一等奖等荣誉奖项。

作为国内AGI技术产业化的先行者，云知声于2023年5月发布山海大模型，其通用能力在权威测评机构SuperCLUE发布的《中文大模型基准测评2024上半年报告》中，以总分72的优异成绩稳居全球大模型第一梯队；其医疗能力登顶今年4月MedBench评测榜，在2023 PromptCBLUE医疗大模型评测获通用赛道一等奖。

而山海之所以能够持续在行业中保持领先地位，得益于团队对技术创新的不懈追求和对产品性能的持续精进与优化。

现场，刘升平分享了山海大模型的通用训练策略，包含预训练、微调、偏好学习和自我提升四个步骤。同时，他指出，面向不同的行业、不同的企业、不同的应用，需要提供相应级别的大模型。基于此，云知声提出了面向应用场景的优化方法包括提示工程、微调、检索增强生成、对齐（反馈学习）、Agent机制、增量预训练、可控解码策略七种武器和一个秘方（数据训练的生产、选择与配比），这些策略共同构成了一套全面的方法论，确保了山海大模型能够在实际应用中达到最佳效果。

加速大模型落地，山海的实践应用探索

大模型是“成本”，应用才是“价值”。刘升平指出，用户不仅是为大模型付费，更是为其在实际场景中的应用价值买单。

大模型的应用五花八门，从大模型语言理解与生成能力的本源深究，其应用场景可基于语言进行分类。

自然语言

自然语言是人类在日常生活中使用的语言，可细分为口语和书面语：

面向口语，大模型有两大应用场景：一是人机对话系统，大模型作为参与者与人类进行对话，云知声基于山海大模型打造的智慧座舱交互、智慧家居交互、智能客服与外呼等应用均属于这一范畴；二是人人对话系统，大模型作为旁观者，将人与人之间的对话录音转写成文字，并进行深入分析。例如，在会议记录系统中，山海大模型能够将会议中的口语对话实时转录并生成会议纪要；在门诊病历生成系统中，它能够将医生与患者的对话转录并生成符合临床规范的病历。

面向书面语，大模型应用可提供一个全面覆盖文本生命周期的解决方案。从文本的创作到审核，再到问答、文本抽取与分析，大模型极大提升了文本处理的效率和质量。云知声蓝藻AI内容创作平台和兽牙AI聚合平台，就充分展示了山海大模型在文本智能化处理方面的强大能力。

形式语言

形式语言被设计用来执行特定任务，通常用于计算机科学与技术领域。这种语言具有严格的规则和结构，不允许有任何歧义或模糊性。例如，编程语言就是一种形式语言。基于形式语言的特性开发的代码智能系统通过自动化代码生成，能够帮助开发者减少手动编写代码的时间，同时确保代码的质量和安全性。

在选择大模型应用场景时，刘升平强调，需要权衡大模型的成熟度以及对幻觉的容忍度，以确保选择的场景能够最大化大模型的优势，同时最小化潜在风险。

打开APP阅读更多精彩内容