您当前所在位置: 主页 > 商会动态 > 商会公告

蚂蚁百灵团队的Ring-lite,凭何能在多项推理榜单实现SOTA效果?

发布时间:2025-06-24 03:00|栏目: 商会公告 |浏览次数:

在如今的人工智能推理模型领域,追求高性能、高效率可是大家梦寐以求的事!而有一种模型搞出了大事情,实现了轻量级推理模型的SOTA效果,还验证了神奇的MoE架构推理潜力,这可不简单,下面咱们就好好聊一下!

多项榜单显神功

多项推理榜单比如AIME24/25、LiveCodeBench、CodeForce、GPQA - diamond等那可是高手如云的地方。就在这,轻量级推理模型创下了SOTA效果,还比肩3倍激活参数大小的10B以下Dense模型了。这就像是一个小个子在高手林立的武林中杀出了一条血路,太厉害了!能取得这样的成绩,对搞推理模型研发的人也是巨大的激励。

开源推理框架__蚂蚁开源数据库

_开源推理框架_蚂蚁开源数据库

起点与训练方法独特

这个厉害的模型是以百灵开源的MoE架构Ling - lite - 1.5为起点。它总参数16.8B,激活参数仅2.75B。然后,又用了独创的C3PO强化学习训练方法。就好比盖房子,选了好的地基,还用了特别的建造方法,这房子想不牢固出色都难!有了这样的基础和方法,模型的发展那是有了保障。

_蚂蚁开源数据库_开源推理框架

探讨技术难题创新多

_蚂蚁开源数据库_开源推理框架

Ring - lite这家伙可没闲着,它还探讨了推理模型的技术难题,像RL训练稳定性、Long - CoT SFT和RL的token分配、多领域任务联合RL训练等问题。并且形成了 Ring - lite 的三大项目技术创新。这就等于是在别人头疼的问题上找到了自己的新解法,以后其他研究者也能从中获得新思路。

熵与训练崩溃关系探秘

研究里还观察到entropy与奖励的崩溃表现出较强的相关性。SFT训练越多,RL训练阶段起点entropy越低,更容易导致训练崩溃。后来,又结合基于熵来选Long - CoT SFT之后做RL训练的起点模型,解决了reward突发的大幅下跌问题。就像是找到了疾病的病因然后对症下药,让模型少点“生病”的情况。

开源推理框架_蚂蚁开源数据库_

两阶段训练比重问题

Long - CoT SFT + RL的两阶段训练涉及到怎么分配两阶段训练比重的事,包括数据分配、算力分配等。从token efficiency角度去分析这个问题,原来直接通过SFT模型的benchmark指标选RL训练的base模型不是最优方案,还容易引发模型奖励骤降。而用entropy loss范围选SFT模型当起点能有不错的效果和token efficiency权衡,这得多做多少实验才能发现

多任务训练方案优化

训练中用数学、代码、科学任务联合训练方案,开始发现直接混合多个任务训练比分阶段训练各领域的分数下降。团队最后采用先数学再代码和STEM混合训练分阶段方式,能更好缓解领域冲突。而且基于标记信息强化学习动态数据采样优化领域融合,提升了效率和效果。这就是不断地尝试,才有了更好的结果。

大家想想,要是咱以后都能充分利用这些研究成果,推理模型能发展成啥样?觉得这模型是不是特别厉害的话就点赞评论分享!你觉得未来推理模型还可能在哪方面有更大的突破?

开源推理框架__蚂蚁开源数据库

Copyright © 2002-2025 大连市同乐中小企业商会 版权所有 Powered by EyouCms
电话:15556325500 地址:大连市中山区独立街31号远达大厦B座1802室 备案号:辽ICP备16005699号-1
网站地图