登录
首页 > 文章列表 > DeepSeek发布671B参数AI模型,高效训练!

更新时间:2025-09-16 10:45:02 编辑:丁丁小编
来源:点击查看

简介

AI 模型新星:DeepSeek 发布 Prover-V2-671B

最近,DeepSeek 在 Hugging Face 上推出了一款全新的 AI 模型——DeepSeek-Prover-V2-671B。这款模型采用了更高效的 safetensors 文件格式,并且支持多种计算精度,这让模型的训练和部署都变得更加高效,也更节省资源。

Prover-V2-671B 是去年 Prover-V1.5 数学模型的升级版,参数规模达到了惊人的 6710 亿!这为它处理复杂的任务提供了强大的算力支持。尤其是在数学证明等领域,它的表现更加出色。

在架构设计上,DeepSeek-Prover-V2-671B 基于 DeepSeek-V3 架构构建,采用了 MoE(混合专家)模式,包含了 61 层 Transformer 层和 7168 维隐藏层。更厉害的是,它还支持超长上下文,最大位置嵌入可达 16.38 万!这意味着它能够应对更加复杂的数学推理场景。此外,FP8 量化的引入不仅有效减小了模型体积,还进一步提升了推理效率,为实际应用提供了更多的可能性。

热门文章