DeepSeek联合清华推AI对齐技术SPCT 降低训练成本并提升性能

首页 > 文章列表 > DeepSeek联合清华推AI对齐技术SPCT 降低训练成本并提升性能

更新时间：2025-04-08 21:05:00 编辑：丁丁小编
来源：点击查看

简介

SPCT技术基于“原则合成-响应生成-批判过滤-原则优化”的递归架构，使AI模型在推理过程中能够实时自我修正，确保输出结果的准确性和可靠性。

拒绝式微调冷启动阶段：在此阶段，生成模型(GRM)被训练以适应各种输入类型，并学会以正确格式生成原则和点评内容。

基于规则的在线强化学习阶段：通过引入规则奖励机制，模型在这一阶段不断优化其生成的原则和点评内容，从而提升推理阶段的可扩展性。

在测试中，配备270亿参数的DeepSeek-GRM模型展现了惊人的性能，通过每查询32次采样的推理计算，达到了与671B规模模型相媲美的水平。此外，该模型采用的硬件感知设计融合了混合专家系统(MoE)，支持128k token的上下文窗口，单查询延迟仅为1.4秒。

SPCT技术显著降低了高性能AI模型的部署门槛。以DeepSeek-GRM模型为例，其训练成本仅为1.2万美元，相较于同类模型动辄数百万美元的成本，实现了极大的成本优化。与OpenAI的GPT-4o模型相比，DeepSeek-GRM的成本仅为后者的1/525。

此外，SPCT技术还减少了90%的人工标注需求，大幅降低了人力成本。相较于传统方法，SPCT的能耗降低了73%，更加环保节能。由于其出色的性能和低延迟设计，SPCT技术为实时机器人控制等动态场景提供了新的可能性。