您当前所在位置：主页 > 商会动态

英伟达新方法将RL扩展到2000步，性能媲美7B模型？

发布时间：2025-06-22 14:07|栏目：商会动态 |浏览次数：

前沿科技领域向来不乏让人惊叹的突破，新模型Nemotron - Research - Reasoning - Qwen - 1.5B带着其独特优势横空出世，在不同任务中的出色表现引发了极大关注！它到底有多强大？且听我慢慢道来。

奖励算法共助力

新模型Nemotron - Research - Reasoning - Qwen - 1.5B可不简单，它借助稳定的奖励计算机制、改进版GRPO算法，还经过了延长的训练过程。就好比一个人经过长时间刻苦训练，还拥有一套独特的应对秘诀。正是这些，让该模型能在不同任务中一展身手，拥有了强大的泛化能力，真可谓是披荆斩棘、勇往直前

编程竞技展锋芒

在竞技编程任务里这模型可厉害得很！尤其是那个pass@1准确率提升了14.4%。比如说就像一场激烈的比赛，这模型就像是个实力超群的选手，在算法优化和边界条件判断上特别拿手，远超其他对手，让人们看到它在编程领域散发的耀眼光芒！

逻辑谜题绽光彩

逻辑谜题的测试场景就更精彩！很多基础模型普遍被困在格式解析与复杂子任务中一筹莫展，就像陷入了一个复杂的迷宫找不到出路。但咱们这个新模型不一样，奖励分数硬生生提升了54.8%，像是一匹黑马突出重围，着实让人眼前一亮

强弱相关有奥秘

强化学习在扩展模型推理能力这方面真是效果明显，特别是在那些高难度任务上。研究有个关键发现，强化学习的效果和基础模型初始能力紧密相连，呈现出负相关关系。也就是说基础模型越弱，经过RL训练后的提升就越显著，就好比原来基础弱的学生，经过特殊训练，进步反而更大

任务表现有差异

在部分任务尤其是数学领域，这新模型推理能力有下降或者不变的情况。不过，这和先前研究的结果是一致的，就像是一场比赛中不同选手在不同项目上有不同发挥。而像代码生成这类复杂任务，经过长时间ProRL训练后，推理能力一直在提升。

训练意义多非凡

这次研究就是想评估长期RL更新的作用，看看模型能不能学到更抽象通用推理策略。结果强有力证实，ProRL不光提升了模型在已知任务上表现，还用这种独特能力让模型有了更强的泛化能力，真可谓意义非凡

看到这里，不知道大家觉不觉得很厉害？不禁要想问一问，未来针对该模型进行新的优化后，它是否能在更多未知领域创造新佳绩？

上一篇：深圳南山两套法拍房拍出天价！为何能吸引众多买家竞相角逐？

下一篇：许家印前妻丁玉梅离婚获数百亿分红？超5亿港元买33套伦敦豪宅引质疑

英伟达新方法将RL扩展到2000步，性能媲美7B模型？

扫一扫关注于我们