模力方舟上线DeepSeek-V4系列大模型

OSC开源社区 2026-04-30 214

描述

来源：模力方舟

当模型开始承担更复杂的任务，真正影响体验的因素已经不只在单轮问答。

开发者会把更长的代码仓库、更完整的项目文档、更复杂的需求说明、更连续的工具调用流程交给模型处理。模型需要在长上下文中保持稳定理解，也需要在多步推理、检索、规划、代码生成和 Agent 任务中持续工作。

围绕这一方向，DeepSeek 在今天上推出了DeepSeek-V4，现已在模力方舟正式上线。

DeepSeek-V4是 DeepSeek 最新发布的预览版模型系列，核心目标指向「高效百万 Token 上下文智能」。本次上线的两个版本均采用 MoE 架构，并支持最高 100 万 Token 上下文窗口：

DeepSeek-V4-Pro总参数规模为 1.6T，激活参数 49B，面向复杂推理、长上下文理解、代码与 Agent 等高强度任务。

DeepSeek-V4-Flash总参数规模为 284B，激活参数 13B，面向更高效率、更低成本的高频调用场景。

百万 Token 上下文：长任务进入工程可用区间

长上下文一直是大模型走向复杂任务的关键能力。

在研发、办公、知识库、数据分析等场景中，任务输入经常超过传统上下文窗口。比如一次性分析大型代码仓库、对比多份技术文档、梳理长周期项目记录、处理多轮 Agent 任务轨迹，都需要模型在更长输入中保持信息定位、关联分析和结果生成能力。

DeepSeek-V4系列将上下文长度推进到 100 万 Token，同时在长上下文效率上做了大幅优化。

根据 DeepSeek 技术报告，在 100 万 Token 上下文设置下，DeepSeek-V4-Pro 相比 DeepSeek-V3.2 仅需 27% 的单 Token 推理 FLOPs 和 10% 的 KV Cache;DeepSeek-V4-Flash 则进一步降至 10% 的单 Token 推理 FLOPs 和 7% 的 KV Cache。

大模型

这意味着，百万级上下文不再只是参数表中的规格，也开始更接近可持续调用的工程形态。

架构升级：CSA 与 HCA 解决长上下文效率问题

DeepSeek-V4 系列的核心升级之一，是混合注意力架构。

DeepSeek-V4 引入了 Compressed Sparse Attention(CSA)与 Heavily Compressed Attention(HCA)。CSA 会先压缩 KV Cache，再通过稀疏选择降低注意力计算开销;HCA 则采用更高压缩率，对超长序列进行更激进的 KV 压缩。

大模型

两者组合后，模型在处理长文本时可以减少注意力计算与缓存压力，同时保留对局部细节的建模能力。

在这一基础上，DeepSeek-V4 还加入了 Manifold-Constrained Hyper-Connections(mHC)，用于增强传统残差连接，提高深层信号传播稳定性;训练侧则引入 Muon 优化器，以提升收敛效率和训练稳定性。

这些改动共同指向一个目标：让模型在更长上下文、更复杂推理、更高调用频率下保持可用性。

训练与后训练：从领域专家到统一模型能力

DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 均基于超过 32T 高质量 Token 进行预训练。

在后训练阶段，DeepSeek-V4 系列采用两阶段范式：先分别培养数学、代码、Agent、指令跟随等方向的领域专家模型，再通过 On-Policy Distillation(OPD)将不同能力整合到统一模型中。

这种路线适合复杂通用模型的能力融合。单一模型既要完成知识问答，也要完成代码、搜索、推理和工具调用任务，后训练环节就需要把多个专项能力统一到稳定的交互体验中。

Pro 与 Flash：一个强能力版本，一个高效率版本

DeepSeek-V4-Pro 更适合复杂任务。

在 DeepSeek 技术报告中，DeepSeek-V4-Pro-Max 作为 DeepSeek-V4-Pro 的最高推理强度模式，在知识、推理、代码、Agent、长上下文等方向均展现出较强表现。报告中也提到，DeepSeek-V4-Pro-Max 在公开 Agent 评测中可与 Kimi-K2.6、GLM-5.1 等开源模型处于同一梯队，并在 100 万 Token 长上下文任务中取得强结果。

DeepSeek-V4-Flash 的定位更偏效率。

它以 284B 总参数、13B 激活参数实现 100 万 Token 上下文支持，在更小激活规模下保留了较强推理能力。对于高频调用、批量处理、成本敏感型应用，Flash 版本更适合作为默认模型底座。

大模型

简单来说：

复杂推理、长文档分析、代码 Agent、高质量内容生成，优先选择 DeepSeek-V4-Pro。

日常问答、批量摘要、检索增强、轻量 Agent、高并发调用，优先选择 DeepSeek-V4-Flash。

中文写作、搜索与 Agent：更贴近日常生产力场景

除了标准评测，DeepSeek 技术报告还给出了面向真实任务的内部评估。

在中文写作任务中，DeepSeek-V4-Pro 覆盖功能写作与创意写作两类场景。报告显示，在功能写作对比中，DeepSeek-V4-Pro 相比 Gemini-3.1-Pro 获得 62.7% 的总体胜率;在创意写作中，其在指令跟随和写作质量两个维度也取得较高胜率。

大模型

在搜索增强问答场景中，DeepSeek-V4-Pro 覆盖 RAG 与 Agentic Search 两类模式。对于需要多步检索、对比、分析和规划的问题，Agentic Search 能够调用更多工具与上下文，适合更复杂的信息处理任务。

这类能力对开发者应用尤其关键。无论是企业知识库问答、技术资料检索、代码库理解，还是自动化工作流中的多工具协同，模型都需要在「看得长」「想得深」「调得动工具」之间取得平衡。

模力方舟已开放在线体验与 API 调用

DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 现均已上线模力方舟。

开发者可以在模力方舟进行在线体验，也可以通过 API 接入到自己的应用、Agent 工作流、知识库系统或研发工具链中。

对于正在构建长上下文应用的团队，DeepSeek-V4-Pro 可以承担复杂文档、代码和推理任务;对于需要控制成本和调用效率的场景，DeepSeek-V4-Flash 可以作为更轻量的基础模型选择。

打开APP阅读更多精彩内容