炒股养科研的学霸

haitao @ 2024年12月31日 人工智能

@刘备教授:周末看了些和 AI 大模型相关的资料,和你们分享下,不一定对。

最近国内爆火的幻方 DeepSeek V3 大约用十分之一的算力就基本实现了 OpenAI 最新版本的数理推理能力,被称为大模型界的 pdd。这倒不是因为幻方的技术更好,而是用到了一种叫做 "数据蒸馏" 的技术。

什么叫做数据蒸馏?

个人理解,就是对着标准答案来做作业。

做难题的时候,很多时候都是在试错,就是用各种思路都做一遍,最后找到那个对的。类似于寻宝的时候有 100 条路,你可能要把前面 99 条路都走到尽头,才找到正确的那条。

但假如你预先知道标准答案(宝藏坐标),那很快就可以否定掉大部分路径,比方说坐标告诉你位置在北边,那就可以把通往东南西三个方向的路都直接删除掉。

在大模型领域,水平最领先的探索者不知道标准答案是啥,只能这 100 条路都走一遍。

但当领先者把答案已经做出来以后,后来者就只需要根据其提供的答案,就可以省略掉大部分的探索过程,所以算力成本只是领先者的几分之一。

嗯,总之 "数据蒸馏" 介于做作业和抄作业之间,他没有重头来做这个作业,也没有直接把解题过程和答案都抄全了,而是根据已有答案,大大提升自己解题过程的效率,就和经济上的 "后发优势" 差不多。

当然咯,也不是什么人都能用 "数据蒸馏" 这个技术,那必须你和领先者水平比较接近才行,领先者 100 分,你也得有 90 分,如果只有 80 分那就算给你答案你也推不出过程。

明眼人看到这里可能都笑了,因为这明摆着对我们最有利。

如果给全世界的 AI 水平打分,那美国 100 分,我们 90 分,其他大部分国家和地区在 80 分以下。

所以这个技术的存在,就使得即便美国一直领先,我们落后也不会太多,可能也只差半年到一年,这个差距也不小,但可以通过其他方面的努力来弥补,而且所付出的算力成本只需要十分之一。

如果以上推测没太大问题,那未来国内的大模型投资会重新躁起来,各种各样的应用也层出不穷,这当然会给我村带来很多机会。

最近雷军和李想都高调宣布杀入大模型这个领域,可能也是因为看到了这个前景。

这里还是要补充下,"数据蒸发" 本质看是一种投机取巧的方法,类似于速成九阴真经,就和人一样,如果一辈子只走对路、没走过错路,实际上能力也是缺失的。

概括就是,在垂直细分领域能力训练上,数据蒸发效率很高;但在通用领域,依然会和领先者有较大差距。

所以巨佬们依然会砸很多钱在算力上,不惜代价来获取领先优势。

@刘备教授:昨天写了幻方的 DeepSeek 后,好几个内业做技术的哥们来给我指正,所以今天再做点补充。

1、DeepSeek 能用大概十分之一的算力达到接近 GPT 的水平,除了 "数据蒸馏" 技术以外,也有独家的创新,就是将算力进行了分工。简单来说,过去的大模型训练中,所有的算力平等,而 DeepSeek 中则是把算力分成许多部分,分别针对不同的任务,相当于人类分门别类的技术专家;还有一部分算力专门独立出来做调度,用来把不同的任务分配给不同的算力,相当于人类的管理者。

当然咯,目前许多大模型都在用这个思路进化,但 DeepSeek 在这方面进展可能最快,所以效率提升也就特别明显。

2、OpenAI 也在试图用自己以前的结果来进行 "数据蒸馏",以得到效率更高的下一代 AI,但并不太乐观。效率的确提升了,但幻觉也增加了,类似于家长老想指导娃去走捷径,但管太多了反而导致这娃不食人间烟火,憋出神经问题来了。

3、OpenAI 一直说要训练出博士水平的大模型,至少目前看不太可能,因为用来训练的语料不足。假如大模型总体就停留在目前这个阶段,也就是记忆力非常好的高中生水平,对人类是最舒服的。因为这正好在很多方面能减轻人类重复劳动,但又恰好没法取代人。我想了下,开车、做家务、照顾老人小孩这些事都是高中生能做的,以后可能是 AI 应用的重点。

对了,我还和他们探讨了一个问题。

幻方的创业团队主要是从浙大出来的,做大模型之前已经是国内最大的量化私募机构。但有趣的是,他们炒股赚钱的目的似乎是为了最终做 AI,而不是做 AI 为了赚钱。

因为他们赚到钱以后,当然也享受生活,但也花大钱买了上万张英伟达卡来做大模型,显然只有技术狂人才会这么玩。

以前我在起点上刷到过一本书叫做《神级学霸》,里面的主人公是重生的生物学研究生,利用重生的优势赚了很多钱,这些钱都用来买投入到科研中最终得了炸药奖。

幻方就有点像现实版的《神级学霸》。

我是要搞科研,但我不需要去申请科研经费,因为我自己就可以赚啊。

光论入学分数,浙大在国内不算顶级的,明显落后清北一个档次,比复交也要低 0.1 个档次。浙大里最顶尖的 10% 学生,可能也就是去清北能吊车尾的水平。

但浙大的优势就是市场化搞得特别好,无论老师还是学生都更具市场思维,习惯通过市场来解决问题。一个人当然只有自己给自己打工,也就是当老板,做自己喜欢的事,才能激发出全部潜能。

所以在和市场相关的领域,当然也包括技术领域,浙大系的表现是顶级的。