关于强化学习是否能够推动语言模型能力的提升,学术界展开了广泛讨论。以往,这一议题普遍引发了较为消极的看法,然而,英伟达的最新研究成果为这一领域带来了新的希望与转机。
学界争议焦点
强化学习在语言模型领域备受瞩目,其作为能力提升的“引擎”或仅仅是答题策略的另一种形式,一直是学术界讨论的焦点。长期以来,相关研究普遍持保守态度,认为强化学习的收益并不显著,甚至可能引发模型特征的趋同。在众多复杂的推理任务场景中,模型的能力提升并不显著。
问题根源所在
英伟达的研究表明,之前现象的根本原因可归结为数学、编程等任务在基础模型训练数据中占比过高,并且强化学习训练的步数不足。这一情况导致模型在深入推理能力上的挖掘受到阻碍,从而在面对新任务时表现不佳。这类似于学生平时仅反复练习特定类型的题目,一旦遇到新题型便难以妥善应对。
ProRL框架登场
NVIDIA团队研发的ProRL框架,显著提高了强化学习训练的步数,使其从数百步增至2000步以上。这一显著进步,极大激发了小型模型所蕴含的巨大潜能。以往,小型模型因训练不足而难以发挥其真正实力,而现在,随着新技术的涌现,它们有望在更多应用场景中展现出强大作用。
长期训练难题
长期的强化学习训练并非易事,这一过程可能会遭遇熵崩塌、性能波动,甚至出现“摆烂”现象。这就像长跑运动员在长时间奔跑中可能会感到身体疲惫,状态下滑,进而影响最终成绩。如何克服这些挑战,成为提升模型能力的关键。
技术融合创新
基于GRPO框架,研究团队吸纳了DAPO中的核心技术。通过解耦裁剪,能够防止策略更新的不均衡,而动态采样则能够筛选掉无效样本,从而提高训练的效率。这两项技术就好比为训练过程配备了一台精确的调节器和一台高效的过滤器,确保了训练的高效性,减少了资源的浪费。
稳定训练秘诀
研究结果表明,适度的KL惩罚对于训练的稳定性至关重要,同时,引入参考策略的重置机制也是一项重要措施。在KL值急剧上升或模型性能出现下滑的情况下,应当对参考策略和优化器进行重置。这一简便且高效的机制能够使训练过程得以“重启”,从而打破训练的停滞状态,推动模型不断进化,仿佛为陷入困境的模型注入了新的生机。
Nemotron - Research - Reasoning - Qwen - 1.5B模型经过ProRL技术的训练,展现出卓越的性能,使小型模型在复杂推理任务中表现出色。对此,您是否认为ProRL技术有望成为小型语言模型发展的主导趋势?我们期待在评论区看到您的见解,同时请不要忘记点赞并转发这篇文章。