快科技10月14日音书,本日凌晨,蚂聚合团认真推出万亿参数念念考模子Ring-1T,并全面开源模子权重、历练配方。
Ring-1T在9月30日开源的预览版Ring-1T-preview基础上,合手续膨胀大范围可考据奖励强化学习(RLVR)历练,进一步引发万亿基座的当然言语推明智力,并通过 RLHF 历练完善模子通用智力,在各项任务榜单上发扬愈加平衡。
为了合手续引发Ring-1T的数学等复杂推明智力,这次百灵团队挑战了难度更高的IMO2025(国外数学奥利匹克)赛题,将Ring-1T接入多智能体框架AWorld,使用纯当然言语推理进行解题。
实际成果炫夸,Ring-1T仅用一次解出了第1、3、4、5题,绝顶于IMO银牌水平,成为首个能拿IMO国外奥数奖的开源系统。
值得一提的是,当作一款念念考模子,Ring-1T也发扬出了极佳的通用智力,在“东谈主类偏好对皆”测试Arena-Hard V2中,Ring-1T以81.59的告捷率居于开源模子榜首,靠拢GPT-5-Thinking(High)82.91的收货。
在面向严谨范围的医疗问答HealthBench测评中,Ring-1T也以最高分得到开源范围最好。
据了解,万亿参数念念考模子历练最浩劫题是训推精度各别,即历练阶段与推理阶段因收场细节各别导致的历练和推理精度不一致,进而导致历练崩溃。
在Ring-1T模子中,蚂蚁采纳了自研的“棒冰(icepop)”算法来搪塞这项行业繁难,即用带掩码的双向截断本事把历练-推理散播各别冻结在低水位,确保长序列、长周期历练不崩。
此外,搪塞万亿参数模子强化学习历练,蚂蚁还自研了高性能强化学习系统ASystem(其中包含已开源的高性能强化学习框架AReaL),绝顶针对万亿参数模子的显存责罚和训推权重交换问题作念了精致的优化,收场了单机显存碎屑秒级回收、权重零冗余交换,把大范围RL历练知晓跑成平常。
据了解,本次发布的Ring-1T模子继续采纳Ling 2.0架构的1T base模子作念后历练,Ling 2.0采纳了包括高度荒芜的MoE架构,1/32的众人激活比、FP8羼杂精度、MTP等诸多特色收场高效历练与推理。
在后历练阶段,蚂蚁百灵团队通过LongCoT-SFT + RLVR + RLHF多阶段历练,显贵补助了模子的复杂推明智力以及教唆奴隶和创意写稿等通用智力。
据百灵团队表露,Ring-1T模子是其在万亿念念考模子上的初度尝试,蚂蚁百灵团队会在后续的版块中继续完善模子性能。
现在开云体育(中国)官方网站,用户可通过HuggingFace、魔搭社区下载模子,并通过蚂蚁百宝箱等平台在线体验。