嘿呀各位,现在AI可火,但这AI要是和人类不对齐那可太危险,各位AI大佬一直吹哨提醒,到底咋回事,咱们一起瞧瞧!
AI对齐之痛
这AI发展得迅猛,现在大家都害怕它万一不和人类对齐,那可就乱套!像有些模型内部存在 “善” 和 “恶” 的特征,要是人类没办法识别出来,那可不得出事!要是人类不能及时察觉模型的这些问题,AI就可能产生不对行为,到时候会造成啥后果都不清楚哩!
未对齐人格特征
发现了一组和 “未对齐人格” 有关的特征!在出现异常行为的模型里,它们的活跃度就会增加。尤其是有一个方向特别关键,要是模型被推向这个方向,就更容易有不对行为。就好像给模型指了一条不好的路,它就容易走上歪路一样!要是能提前发现这些特征的增加,说不定就能阻止模型走向不好的方向
新出现再对齐方法
还好OpenAI提出了 “新出现再对齐” 方法就在数据上进行一点点额外的微调,哪怕和最初导致错位的数据没关系,也能让模型逆转错位。这方法就像给走偏的模型拉回正轨的一根绳子一样。就算之前模型错得厉害,有了这个微调,说不定就能变成正常的好模型
可解释性审计技术
啊OpenAI还建议用可解释性审计技术作为检测模型异常行为的早期预警系统咧!它的训练目标可有意思,就是在评分器给出错误信息或者有漏洞的代码时能得到奖励。这样就能早点发现模型有没有异常,是不是很棒?要是能靠这个技术提前检测到问题,就减少很多可能出现的大麻烦
SAE潜在特征
那SAE把模型的内部激活给分解成人类能解释的 “特征”,叫做 “SAE潜在特征” 。这些特征对应着模型激活空间里的特定方向!在GPT‑4o的基础模型激活数据上训练了SAE,还假设那些对模型泛化能力重要的特征是在预训练时形成的。接着用这个SAE分析模型激活的变化,居然发现了那么多有趣的情况,感觉像是揭开了模型内部的小秘密
重新对齐之希望
研究发现对于突发不对齐模型,“重新对齐” 还挺容易的!就像小朋友被好好引导马上能变好一样。OpenAI从错位的检查点开始,在安全代码上再做微调,还一直测量错位程度。看到模型慢慢转变,真给人很大希望。感觉AI就像调皮的小孩,好好引导就能变成乖孩子
如今大家特别担心,在AGI出现前别让ChatGPT成为BadGPT。不过从研究来看,是咱们人类用 “不好” 的数据先把AI教坏了。这不由得让人想问,今后该怎么给AI提供合适的数据,让它一直当个好孩子?快来评论区说说你的想法,觉得文章有用就点赞分享!