这个模型的速度比 R1-0528 快 200%,比 R1 快 20%。除了速度上的显著优势,它在 GPQA Diamond(专家级推理能力问答基准)和 AIME 24(数学推理基准)上的表现均优于 R1,但未达到 R1-0528 的水平。
在技术层面,采用了专家组合(Assembly of Experts,AoE)技术开发,并融合了 DeepSeek 官方的 V3、R1 和 R1-0528 三大模型。
当然,这个模型也是开源的,遵循 MIT 协议,并在 Hugging Face 上开放了权重。
Hugging Face 地址:https://huggingface.co/tngtech/DeepSeek-TNG-R1T2-Chimera
没有回复内容