您的位置:首页 > 房产 > 家装 > RWKV作者对OpenAI 发布 o1 系列模型的看法,很深刻

RWKV作者对OpenAI 发布 o1 系列模型的看法,很深刻

2024/11/8 17:19:26 来源:https://blog.csdn.net/AIBigModel/article/details/142257408  浏览:    关键词:RWKV作者对OpenAI 发布 o1 系列模型的看法,很深刻

图片

知乎:PENG Bo

链接:https://www.zhihu.com/question/666991594/answer/3624168868

大家都知道长期CoT可以提升性能,而且很快我们会看到其它家的例子,这是最后的low-hanging fruit,因为只需合成大量训练数据,包括动态去合成有针对性的训练数据。

例如,我去年7月演示过,一个2.9M参数量的超小RWKV-4配合长期CoT可以精确解决各种复杂四则运算:

https://github.com/BlinkDL/RWKV-LM/tree/main/RWKV-v4neo/math_demo (训练数据合成时覆盖不够全面,数字别写太长太多,但可以随意换其它随机数字)

图片

如果用RWKV这样的RNN模型,无论做多久的CoT,消耗的显存,和生成每个字的速度,都是恒定的,因此尤其适合做长期CoT。相当于在state的潜空间做长期的行走。

数学和代码,尤其适合通过这种方法提升。而且还可以配合MCTS。而且模型可以调用外部工具验证,可以自己纠错(这个看上去还没开放,估计因为OAI认为目前对于公众开放这种就显得过于强)。

我一直认为,这个方法一直做下去,足够做到"伪AGI",替代99+%的人类工作。因为人类在99+%的时候没有智能。

然后,水涨船高,大家会习以为常,这会commoditize。

剩下的才是真正有趣的问题,例如真正的创意,真正的洞察力,超越时代的想法,在没有路的地方走出路来,也包括真正的感悟和体验,因为这些事情的验证标准是不明确的。

人类是怎么想到这些事情的,是目前的大模型无法理解的。就像,拉马努金说他是梦到的。

当然,这些也有办法解决,只不过,如果知道的人不说,不知道的人(或模型)就不可能想出来。

例如,写作是最简单的,又是最难的。

图片

这就像什么呢?就像一直有很多人爱吹OAI,就像高赞回答爱吹。因为,太多的事物,在不懂的人看来是神奇的(因为他们不可能想出来),在懂的人看来是trivial的(因为不用想就知道)。

令人遗憾的现实是:不懂的人,做再多CoT,也是不可能懂的。所以CoT不是万灵药。

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com