当今,人工智能领域中算法与数据、多种学习方式等诸多要素混战,究竟谁能在未来大放异彩?争议可是相当大的!这不得好好聊一下,接下来我们一探究竟。
数据积累推动AGI幻想
据说,到2030年,都不用啥算法创新,就使劲收集数据,针对性地训练,就能实现AGI。我就想,虽说如今收集不同白领工作任务的数据听着是简单容易,但真光靠这就能实现AGI?比如一些复杂的创意工作,靠着收集的数据训练就能做到像人一样自主发挥?这未来能不能真成,还得打个大问号!
再说就算人工智能停下来不走了,可在未来五年看到工作自动化,真有这么简单吗?说不定过程中会冒出好多难题,就像盖房子,光有材料可不一定就能建成理想的大厦。
提示词修改之困境
工程师现在能做的,就是不停修改系统提示词。可这哪能跟人比!咱人可以通过反馈、积累好多经验,还能自己纠错,不断进步。提示词再多能有咱人脑灵活!打个比方,让人写文章,能越写越好,可机器就只能靠改提示词,效果也就那么回事。啥时候机器能跟人一样不断提升,这可是个难事。
RL训练之局限
那个设想中的下一代RL训练,单个答案得生成100万到1亿个token!可是,RL也没办法像变魔法似的,让我们训练出能搞定复杂任务的语言模型。你想优化整个代码库、做现实世界科学实验、制定啥复杂策略,这都是高难度的活儿,RL根本应付不来。就像给孩子一堆积木,它也不一定能搭出想要的城堡
当前模型扩展方向
现在,咱就继续用当前模型的扩展方法,不一下子就进军那些超级复杂的应用领域了。从结构上来看,扩大RL训练规模好像是未来的前沿方向。但问题来了,要扩展的那些新任务,训练效果是不是本质上有不同?像GPT - 4或者GPT - 4.5,训练的时候性能让人琢磨不透,啥时候能完成也不确定。估计未来几年行业会进入以RL扩展为核心、强调持续优化的迭代模式,可这路能走多顺,谁也说不准。
持续学习之挑战
想要实现像Dwarkesh所说的「持续学习」,或者提高「技能获取效率」,那是困难重重。就说在模型规模越来越大、应用场景越来越复杂的情况下去实现「持续学习」,就跟登山似的,越往上越难。不过像「推理时扩展」这种方式更容易明白和实现。可真要构建真正意义的「持续学习」系统,就在现有语言模型基础上搞,简直充满了不确定性,一不小心就要掉进坑里面。
现实案例给的警示
在机器人领域,端到端的强化学习可不是大家认可的最佳方案。这就提醒我们,把RL拓展到稀疏反馈领域的时候,可不能瞎搞,不能盲目地套用已有的训练范式。目前最接近「持续学习」的其实是推荐系统,它能短时间抓住个人兴趣,通过用户交互学习。从这能看出来,智能体的智能得通过行为和对环境的影响来评估。只是抽象世界的复杂概念对智能体来说,也就那样儿。
最后我就想问大家,你们觉得未来人工智能到底是走持续学习这条路,还是有别的什么更好的方向?