6月8日·星期一·deepseek-ai·开源模型

DeepSeek-V4-Pro

热度4,999
组织deepseek-ai
来源Hugging Face
DeepSeek-V4-Pro 是由 deepseek-ai 团队开发的大规模混合专家(MoE)语言模型,属于 DeepSeek-V4 系列预览版。该项目定位为高效处理百万级 token 长上下文的智能系统,核心目标是解决超长序列推理中的计算与存储瓶颈。 该模型拥有 1.6 万亿总参数量,每次推理激活 490 亿参数,支持高达 100 万 token 的上下文长度。技术亮点包括三项关键创新:一是混合注意力架构,结合压缩稀疏注意力(CSA)与重度压缩注意力(HCA),在百万 token 场景下,单 token 推理 FLOPs 仅为 DeepSeek-V3.2 的 27%,KV 缓存占用降至 10%;二是流形约束超连接(mHC),增强残差连接稳定性,改善跨层信号传播;三是采用 Muon 优化器,实现更快收敛与更稳定的训练过程。 模型在超过 32 万亿高质量多样化 token 上完成预训练,随后经过两阶段后训练流程:独立阶段与联合优化阶段,以提升指令跟随与长上下文理解能力。适用场景包括大规模文档分析、长文本生成、多轮对话系统、代码库理解与检索增强生成等需要处理超长序列的任务。该模型以 MIT 许可证开源,可通过 Hugging Face 平台获取权重与技术报告。
本档案由千智坊基于公开信息整理,访问项目原文: