来源:模力方舟
当模型开始承担更复杂的任务,真正影响体验的因素已经不只在单轮问答。
开发者会把更长的代码仓库、更完整的项目文档、更复杂的需求说明、更连续的工具调用流程交给模型处理。模型需要在长上下文中保持稳定理解,也需要在多步推理、检索、规划、代码生成和 Agent 任务中持续工作。
围绕这一方向,DeepSeek 在今天上推出了DeepSeek-V4,现已在模力方舟正式上线。
DeepSeek-V4是 DeepSeek 最新发布的预览版模型系列,核心目标指向「高效百万 Token 上下文智能」。本次上线的两个版本均采用 MoE 架构,并支持最高 100 万 Token 上下文窗口:
DeepSeek-V4-Pro总参数规模为 1.6T,激活参数 49B,面向复杂推理、长上下文理解、代码与 Agent 等高强度任务。
DeepSeek-V4-Flash总参数规模为 284B,激活参数 13B,面向更高效率、更低成本的高频调用场景。
百万 Token 上下文:长任务进入工程可用区间
长上下文一直是大模型走向复杂任务的关键能力。
在研发、办公、知识库、数据分析等场景中,任务输入经常超过传统上下文窗口。比如一次性分析大型代码仓库、对比多份技术文档、梳理长周期项目记录、处理多轮 Agent 任务轨迹,都需要模型在更长输入中保持信息定位、关联分析和结果生成能力。
DeepSeek-V4系列将上下文长度推进到 100 万 Token,同时在长上下文效率上做了大幅优化。
根据 DeepSeek 技术报告,在 100 万 Token 上下文设置下,DeepSeek-V4-Pro 相比 DeepSeek-V3.2 仅需 27% 的单 Token 推理 FLOPs 和 10% 的 KV Cache;DeepSeek-V4-Flash 则进一步降至 10% 的单 Token 推理 FLOPs 和 7% 的 KV Cache。

这意味着,百万级上下文不再只是参数表中的规格,也开始更接近可持续调用的工程形态。
架构升级:CSA 与 HCA 解决长上下文效率问题
DeepSeek-V4 系列的核心升级之一,是混合注意力架构。
DeepSeek-V4 引入了 Compressed Sparse Attention(CSA)与 Heavily Compressed Attention(HCA)。CSA 会先压缩 KV Cache,再通过稀疏选择降低注意力计算开销;HCA 则采用更高压缩率,对超长序列进行更激进的 KV 压缩。

两者组合后,模型在处理长文本时可以减少注意力计算与缓存压力,同时保留对局部细节的建模能力。
在这一基础上,DeepSeek-V4 还加入了 Manifold-Constrained Hyper-Connections(mHC),用于增强传统残差连接,提高深层信号传播稳定性;训练侧则引入 Muon 优化器,以提升收敛效率和训练稳定性。
这些改动共同指向一个目标:让模型在更长上下文、更复杂推理、更高调用频率下保持可用性。
训练与后训练:从领域专家到统一模型能力
DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 均基于超过 32T 高质量 Token 进行预训练。
在后训练阶段,DeepSeek-V4 系列采用两阶段范式:先分别培养数学、代码、Agent、指令跟随等方向的领域专家模型,再通过 On-Policy Distillation(OPD)将不同能力整合到统一模型中。
这种路线适合复杂通用模型的能力融合。单一模型既要完成知识问答,也要完成代码、搜索、推理和工具调用任务,后训练环节就需要把多个专项能力统一到稳定的交互体验中。
Pro 与 Flash:一个强能力版本,一个高效率版本
DeepSeek-V4-Pro 更适合复杂任务。
在 DeepSeek 技术报告中,DeepSeek-V4-Pro-Max 作为 DeepSeek-V4-Pro 的最高推理强度模式,在知识、推理、代码、Agent、长上下文等方向均展现出较强表现。报告中也提到,DeepSeek-V4-Pro-Max 在公开 Agent 评测中可与 Kimi-K2.6、GLM-5.1 等开源模型处于同一梯队,并在 100 万 Token 长上下文任务中取得强结果。
DeepSeek-V4-Flash 的定位更偏效率。
它以 284B 总参数、13B 激活参数实现 100 万 Token 上下文支持,在更小激活规模下保留了较强推理能力。对于高频调用、批量处理、成本敏感型应用,Flash 版本更适合作为默认模型底座。

简单来说:
复杂推理、长文档分析、代码 Agent、高质量内容生成,优先选择 DeepSeek-V4-Pro。
日常问答、批量摘要、检索增强、轻量 Agent、高并发调用,优先选择 DeepSeek-V4-Flash。
中文写作、搜索与 Agent:更贴近日常生产力场景
除了标准评测,DeepSeek 技术报告还给出了面向真实任务的内部评估。
在中文写作任务中,DeepSeek-V4-Pro 覆盖功能写作与创意写作两类场景。报告显示,在功能写作对比中,DeepSeek-V4-Pro 相比 Gemini-3.1-Pro 获得 62.7% 的总体胜率;在创意写作中,其在指令跟随和写作质量两个维度也取得较高胜率。

在搜索增强问答场景中,DeepSeek-V4-Pro 覆盖 RAG 与 Agentic Search 两类模式。对于需要多步检索、对比、分析和规划的问题,Agentic Search 能够调用更多工具与上下文,适合更复杂的信息处理任务。
这类能力对开发者应用尤其关键。无论是企业知识库问答、技术资料检索、代码库理解,还是自动化工作流中的多工具协同,模型都需要在「看得长」「想得深」「调得动工具」之间取得平衡。
模力方舟已开放在线体验与 API 调用
DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 现均已上线模力方舟。
开发者可以在模力方舟进行在线体验,也可以通过 API 接入到自己的应用、Agent 工作流、知识库系统或研发工具链中。
对于正在构建长上下文应用的团队,DeepSeek-V4-Pro 可以承担复杂文档、代码和推理任务;对于需要控制成本和调用效率的场景,DeepSeek-V4-Flash 可以作为更轻量的基础模型选择。
全部0条评论
快来发表一下你的评论吧 !