蚂蚁集团于10月14日凌晨正式发布万亿参数大模型Ring-1T,并同步开放模型权重与完整训练配置参数。该版本在9月30日发布的预览版Ring-1T-preview基础上持续优化大规模可验证奖励强化学习(RLVR)训练流程,进一步提升万亿基座模型的自然语言推理能力,并通过强化学习的人类反馈机制(RLHF)完善通用技能体系,使其在各类任务榜单上的表现更加均衡。作为具备深度推理能力的思考型模型,在”人类偏好对齐”权威测试Arena-Hard V2中,Ring-1T以81.59%的成功率位居开源模型首位,仅以微弱差距落后于GPT-5-Thinking(High)的82.91%。(广角观察)
评论 ( 0 )