新闻中心

月之暗面: 很早就验证过长思维链, 因成本高不够重视, 为了性能决定搞

2025-02-24 05:49:04

来源:

月之暗面: 很早就验证过长,思维链, 因成本高不够重视, 为了性能决定搞

三言科技2月17日消息,上个月Kimi发布的多模态推理模型k1.5,今日月之暗面官方分享了k1.5模型诞生的过程。

月之暗面研究员FloodSung表示,去年9月12号OpenAIo1发布,长思维链(推理模型背后的关键技术)的有效让他陷入反思。

因为长思维链的有效性其实在一年多前就已经知道了,月之暗面Kimi联合创始人Tim周昕宇很早就验证过,使用很小的模型,训练模型做几十位的加减乘除运算,将细粒度的运算过程合成出来变成很长的思维链数据做监督微调,就可以获得非常好的效果。“我依然记得当时看到那个效果的震撼。”

“我们意识到长上下文的重要性,所以率先考虑把文本搞长,但却对长思维链这件事情不够重视。其实主要还是考虑了成本问题。”他表示,长上下文主要做的是长文本输入,有Prefill预填充,有Mooncake加持,成本速度可控,而长思维链是长文本输出,成本高很多,速度也要慢很多。在这种情况下,把输出搞长就没有成为一个高优选项。

该研究员称还有什么比性能更重要呢?成本和速度有摩尔定律加持,可以不断下降,只要把性能搞上去,剩下的都不是主要问题。“所以,我们得搞长思维链,搞o1。”

他还提到在实际训练的过程中有了重要的发现:模型会随着训练提升性能也不断增加token数,也就是这是RL训练过程中模型可以自已涌现的,“这个和友商Deepseek的发现几乎是一样的。”

一二线房价止跌回稳河村勇辉:希望日本男篮从惨败中学习大量黄金正运往美国DeepSeek最新预测哪吒2票房民营企业座谈会上的更多细节留几手宣布参加《演员请就位》聋哑老人房产被偷卖DeepSeek预测哪吒2或跻身全球影史前五eStar跨赛季十七连胜怀孕被设备砸脑震荡

(内容来源:北京日报)

作者: 编辑:高欣彤

  • 越牛新闻客户端

  • 越牛新闻微信

  • 绍兴发布微信

  • 越牛新闻微博

  • 绍兴发布微博

爆料

新闻热线

0575-88880000

投稿信箱

zjsxnet@163.com