DeepSeek R2还没来,野生DeepSeek R1T2火了 - 技术宅银魂 - 科技改变生活 - 万事屋 | 生活·动漫·娱乐综合社区-银魂同好聚集地

DeepSeek R2还没来,野生DeepSeek R1T2火了

20250705120250646-image

这个模型的速度比 R1-0528 快 200%,比 R1 快 20%。除了速度上的显著优势,它在 GPQA Diamond(专家级推理能力问答基准)和 AIME 24(数学推理基准)上的表现均优于 R1,但未达到 R1-0528 的水平。

在技术层面,采用了专家组合(Assembly of Experts,AoE)技术开发,并融合了 DeepSeek 官方的 V3、R1 和 R1-0528 三大模型。

当然,这个模型也是开源的,遵循 MIT 协议,并在 Hugging Face 上开放了权重。

Hugging Face 地址:https://huggingface.co/tngtech/DeepSeek-TNG-R1T2-Chimera

请登录后发表评论

    没有回复内容

万事屋新帖