大模型推理有新技术!连续隐向量推理能提升性能但缺理论支撑,现在有科学家给它提供理论依据了,这到底是怎么做到的
连续思维链新发现
近期科学家有新研究发现!利用连续隐向量而非离散 token 进行推理能显著让性能提升不少,虽然之前缺乏理论这方面的解释。田渊栋带着来自 UC 伯克利、UCSD 的这群科学家使用连续空间中的 “叠加态”,使得大模型在进行并行推理上有了新的突破,这个意义可重大。就好比我们解谜题,之前方法不好解开,现在好像找到了新途径
解决有向图问题优势
对于有特定条件的有向图问题来说用离散思维链和连续思维链区别还是挺大。离散思维链就跟深度优先搜索似的,每次只选单一路径,这样要很多步骤而且容易就受到限制。而连续思维链就像广度优先搜索,能同时把多个候选图路径编码起来,还能用 “叠加” 进行隐式的 “并行搜索”,优越性可是相当明显滴 。
注意力选择器作用
团队专门设计了注意力选择器机制。这就跟我们开车用的导航仪一样重要,能让模型在一堆杂乱的信息当中精准地找到应该重点关注的地方。要是没有遇到那种明确的标记,它就会让模型去注意开头给的问题条件这些信息,保证模型不会迷失在大量信息里,一直能从正确的起点开始进行思考。
思维向量的处理方式
打个比方,如果从根节点走 c 步之后,那个里面不是只装一条路径,而是把所有 c 步内可以到达的节点都同时装在里面。这些节点的信息全都被 “揉” 成一个向量了,这样模型一次性就能把所有可能性都处理,而不是说一次只能考虑一条路径这么局限。
Transformer 层任务分工
第一层有 5 个注意力头,每个头就像一个尽心尽责的 “信息收集小助手”。经过这一层的处理,每条边的信息都清楚地标记了起点和终点,最开始的思维向量也保留下来,作为接下来进一步探寻的基础。这一层就如同 “探索指挥官”,它会根据当前的叠加态找下一步能够到达的全新节点 。
实验结果惊艳表现
团队在 ProsQA 数据集子集上进行了实验,这个子集的问题需要 3 - 4 推理步长才能解决,图中的每个节点都作为专用 token 被添加到词汇表。实验得到的结果,那是相当惊艳,采用 COCONUT 也就是连续思维链的 2 层 Transformer 模型在解决这些问题的时候,准确率都接近 100% 了,还通过分析证实了 “叠加态存在” 的理论假设。
看完这厉害的新研究成果,你认为未来连续思维链还能在大模型推理的哪些方面发挥显著作用?