DeepSeek研究员在线爆料:R1训练仅用两到三周,春节期间观察到R1 zero强大进化
rainbow @ 2025年02月06日 财经风云
DeepSeek研究员在线爆料:R1训练仅用两到三周,春节期间观察到R1 zero强大进化 AI寒武纪 从爆料中可以看出,RL尚处早期,性能提升远未见顶;跨领域测试泛化能力,拒绝"记忆投机";从语言模型到数学证明,RL正向高阶推理迈进。 刚刚我注意到DeepSeek研究员Daya Guo回复了网友有关DeepSeek R1的一些问题,以及接下来的公司的计划,只能说DeepSeek的R1仅仅只是开始,内部研究还在快速推进,DeepSeek 的研究员过年都没歇,一直在爆肝推进研究,接下来DeepSeek还有大招 事情是这样的,2月1号,大年初四Daya Guo发了一条推文,透露了春节期间让他最兴奋的事情,亲眼见证了 R1-Zero 模型性能曲线的 "持续增长",并且直言感受到了 强化学习(RL)的强大力量!这一下子就点燃了网友们的好奇心,大家纷纷跑去围观提问(太拼了,deepseek研究员过年都在爆肝训练模型) 以下我来帮大家还原一下Daya Guo与网友对话: 网友A @PseudoProphet: "大佬,想问下这个性能持续提升能持续多久呢?现在是早期阶段吗?感觉DeepSeek的RL模型是不是像语言模型里的GPT-2一样刚起步?还是说已经到GPT-3.5那种比较成熟的阶段,快要遇到瓶颈了?" 这个问题问的相当犀利啊,直接关系到DeepSeek RL技术的潜力!Daya Guo 的回复也十分坦诚: Daya Guo : "我觉得我们还处于非常早期的阶段,RL 领域还有很长的路要探索。但我相信今年会看到显著的进展" 划重点! "非常早期", "很长的路要探索", "今年会有显著进展"!这几个关键词信息量巨大。这意味着,DeepSeek 认为他们在RL领域仍然有巨大的进步空间,R1 现在的成绩可能只是冰山一角,未来可期啊! 紧接着,另一位网友 @kaush_trip (Cheeku Tripathi)抛出了一个更专业的问题,直击模型能力的核心: 网友B @kaush_trip: "基于 R1-Zero 的性能,您如何评估模型是真的具备了 泛化能力,还是仅仅 记忆了状态转换和奖励 ?" 这个问题问的非常到位!毕竟现在很多模型看起来很强大,但实际上只是在训练数据上"死记硬背",换个环境就拉胯。DeepSeek R1 到底是不是真材实料呢? Daya Guo : "我们使用 RL prompt 未覆盖的领域的基准 来评估泛化能力。目前来看,它 似乎具备泛化能力" "RL prompt 未覆盖的领域" 这句话是关键!这意味着 DeepSeek 不是用训练数据来"作弊"评估,而是用模型 从未见过 的新场景来测试,这才能真正体现模型的泛化水平。Daya Guo 用 "似乎具备" 这种严谨的措辞,也更显得真实可信 接下来,一位ID名为 @teortaxesTex 的网友,DeepSeek的忠实粉丝(备注里都写着"DeepSeek鲸鱼啦啦队"),他从DeepSeek V3 技术报告入手,提出了一个关于 模型训练时间 的问题: 网友C @teortaxesTex: "如果不是秘密的话:这次 RL 训练跑了多久?感觉你们早在 12 月 10 号就有了 R1 或者至少是 R1-Zero,因为 V3 技术报告里提到 V2.5 模型用了 R1 的知识蒸馏,而且 V2.5-1210 的分数和现在的模型一样。现在做的这个是那次训练的延续吗?" 这位网友观察力惊人啊!能从技术报告里抠出这么多细节。Daya Guo 也耐心解答了模型的迭代过程: Daya Guo : "660B 参数的 R1-Zero 和 R1 是在 V3 发布之后才开始跑的,训练大约花了 2-3 周。之前我们提到的 R1 模型(比如在 V3 技术报告里),实际上是 R1-Lite 或者 R1-Lite-Zero" 原来如此!我们现在看到的 R1-Zero 和 R1 是 "全新升级版",之前的 R1-Lite 系列是小规模版本。看来 DeepSeek 在背后默默迭代升级了不少版本啊 关于训练速度,网友 @jiayi_pirate (Jiayi Pan)和 网友B @kaush_trip 又接力提出了一个"灵魂拷问": 网友D @jiayi_pirate: "3 周 1 万 RL steps,每个梯度传播 (grpo) 步骤要 ~ 3 分钟 ????" 网友B @kaush_trip: "如果每个梯度传播 (grpo) 步骤要 ~3 分钟,那大概每小时 5 步,每天 120 步,确实很慢。" 这算的是真够细致的!按照网友的计算,DeepSeek R1 的训练速度确实不算快。侧面也说明,这种高性能的 RL 模型,训练成本和时间投入都是巨大的。"慢工出细活" 用来形容 AI 模型训练,好像也挺合适的 最后,一位名叫 @davikrehalt (Andy Jiang)的网友,从更前沿的应用角度提了一个问题: 网友E @davikrehalt: "你们有没有尝试用 RL 来搞 形式化证明环境,而不是只做问答对?要是今年有个开源模型能在 IMO (国际数学奥林匹克) 拿金牌就好了!(以及更多希望!)" 形式化证明!IMO 金牌!这位网友的野心不小啊!不过,把 AI 应用到数学证明这种硬核领域,确实是未来趋势。Daya Guo 的回答再次让人惊喜: Daya Guo : "我们也在尝试将 R1 应用于 Lean 这样的形式化证明环境。我们希望尽快向社区发布更好的模型" 听 Daya Guo 的意思,他们在这方面已经有进展,未来可能会有更重磅的模型发布!期待值拉满! 写在最后 从Daya Guo的回应中可提炼三大信号: 技术定位:RL尚处早期,性能提升远未见顶; 验证逻辑:跨领域测试泛化能力,拒绝"记忆投机" 应用边界:从语言模型到数学证明,RL正向高阶推理迈进 本文来源:AI寒武纪,原文标题:《最新!DeepSeek研究员在线爆料:R1训练仅用两到三周,春节期间观察到R1 zero强大进化》 风险提示及免责条款 市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
|
推荐内容
- DeepSeek研究员在线爆料:R1训练仅用两到三周,春..
- 特朗普“政府瘦身”大计蔓延至情报机构 中情局提..
- 谷歌预计今年资本开支高达750亿美元,远超市场预..
- 金条疯狂涌入美国,金价再创新高
- 最新全球模型榜单:阿里 Qwen2.5-Max超DeepSeek ..
- DeepSeek的创新三重门
- 世界黄金协会:2024年黄金需求创新高,各国央行的..
- 美联储“二号人物”:不必急于改变立场,决策者应..
- 高溢价QDII同“类”不同“命”:有的跌停,有的暴..
- 英伟达憾失DeepSeek关键人才?美国放走AI「钱学森..
- 全球贸易秩序面临更大不确定性
- 木头姐坚定AI:2030年AI算力爆炸式增长!猛涨100..
- 又玩套路!中概股、港股春节期间暴涨,轮到A股开..
- 特朗普关税“大棒”挥向欧盟?美国科技巨头或成报..
- A股将面临重大变盘
热点阅读
- 注意!2月5日起国内航线燃油附加费全面上调,出行..
- 春节后A股将会如何演绎?以史为鉴这四大行业上涨..
- 交易所春节休市安排公布:A股除夕休市,大年初八..
- 马斯克动手了!DOGE要全面控制美国政府?..
- 跌宕起伏的一周,尽管英伟达被重创,美股Mag 7整..
- 美宣布对中国商品加征10%关税
- 科技股拖累美股涨势暂歇,中概、人民币大涨,特朗..
- 开启全面贸易战?特朗普“新开战线”:最早于2月..
- 川普2.0最佳资产?金价迎来十年来最强的一月..
- 贸易战爆发!报复美国征税,加拿大将对1550亿加元..
- AI巨变就在未来2,3年了,这位大佬说的很清楚了:..
- 创造历史!DeepSeek超越ChatGPT登顶中美AppStore..
- 一周展望:特朗普关税大棒加速挥舞!黄金创新高后..
- 加密货币市场惨遭血洗,比特币跌破10万美元,以太..
- 中方将反制!商务部回应美方对中国产品加征10%关..