6月8日·星期一·deepseek-ai·开源模型

DeepSeek-V4-Pro

热度★ 4,999

组织deepseek-ai

来源Hugging Face

DeepSeek-V4-Pro 是由 deepseek-ai 团队开发的大规模混合专家（MoE）语言模型，属于 DeepSeek-V4 系列预览版。该项目定位为高效处理百万级 token 长上下文的智能系统，核心目标是解决超长序列推理中的计算与存储瓶颈。该模型拥有 1.6 万亿总参数量，每次推理激活 490 亿参数，支持高达 100 万 token 的上下文长度。技术亮点包括三项关键创新：一是混合注意力架构，结合压缩稀疏注意力（CSA）与重度压缩注意力（HCA），在百万 token 场景下，单 token 推理 FLOPs 仅为 DeepSeek-V3.2 的 27%，KV 缓存占用降至 10%；二是流形约束超连接（mHC），增强残差连接稳定性，改善跨层信号传播；三是采用 Muon 优化器，实现更快收敛与更稳定的训练过程。模型在超过 32 万亿高质量多样化 token 上完成预训练，随后经过两阶段后训练流程：独立阶段与联合优化阶段，以提升指令跟随与长上下文理解能力。适用场景包括大规模文档分析、长文本生成、多轮对话系统、代码库理解与检索增强生成等需要处理超长序列的任务。该模型以 MIT 许可证开源，可通过 Hugging Face 平台获取权重与技术报告。

本档案由千智坊基于公开信息整理，访问项目原文：

访问GitHub →访问Hugging Face →