【0】@西门吹花hz Deepseek 高效使用指南,5分钟学会。 这两天Deepseek爆火全球,会用的人说巨好用,但是也有很多人说也不过如此,其实这么多国际巨头都震惊,自然是非常惊艳的一款产品。 之所以觉得不好,差距就在提问方式,我整理了自己经验,用真实案例拆解,教你用1个公式让Deepseek变身"职场军师""学霸外挂""流量引擎"。 如果你的提问太"渣",那么deepseek给你的就是渣答案。 不是像某些人说的随便问,它是遵循一套方法,而且是极其简单方法,人人都可以用,我已经测出来并总结好喂给你了。 1. 职场人:无效提问 - 错误示范: "分析新能源汽车市场" → 输出笼统的行业报告,泛泛而谈 - 优化后提问: "作为市场专员,请对比2024年Q4比亚迪与特斯拉的社交媒体声量,分析用户对'降价策略'的情绪倾向,用表格呈现" → 直接输出带数据对比的结论,20分钟完成汇报PPT 2. 学生党:模糊提问误了DDL - 错误示范: "帮忙改论文" → 收到"建议多查文献"的无针对性内容 - 优化后提问: "我是机械专业本科生,需要优化文献综述部分,重点突出近3年柔性机器人传感器的突破,请用学术语言重写并标注参考文献DOI" → 自动生成带权威引用的段落,查重率直降15% 3. 博主:流水账文案 - 错误示范: "写上海咖啡店探店文案" → 生成"环境优美、咖啡好喝"的通用模板 - 优化后提问: "作为'社恐探店博主',请以'躲开网红店人潮'为主题,推荐3家浦东小众咖啡馆,要求: 1)写明适合独处办公的细节 2)用'发现秘密基地'的惊喜语气 3)结尾引导粉丝投稿私藏店铺 二、万能公式:4步提问法 记住这个我验证提炼出来的"提问黄金公式 " "明确身份+具体任务+细节约束+输出格式" 公式拆解 1. 身份:你是谁?(学生/打工人/新手妈妈…) 2. 任务:要解决什么问题?(写报告/做计划/分析数据…) 3. 细节:限制条件是什么?(时间/场景/禁忌…) 4. 格式:想要什么形式的结果?(表格/分段/口语化…) 举个栗子: | 职场 | "做个竞品分析" | "作为快消品运营,请对比元气森林与农夫山泉2024年小红书营销策略,列出爆款笔记共性,用Excel表格输出" | | 学术 | "怎么查文献" | "我是临床医学研一学生,需要近5年阿尔茨海默症早期诊断的英文综述,请按影响因子排序并提供PubMed链接" | | 博主 | "写母婴文案" | "作为90后宝妈博主,针对'宝宝厌奶期'痛点设计3个解决方案,要求:①带亲身经历故事 ②用'过来人'语气 ③结尾引导评论区互动" | 三、真实场景实操指南 1. 职场人:精准解决工作难题 场景:撰写年终总结(真实咨询公司案例) - 错误提问: "写个人年终总结" → 生成"加强学习、提升能力"的套路文 - 公式化提问: "作为审计顾问,请用STAR法则整理我的年度工作: 1)突出参与3个IPO项目的风险控制贡献 2)量化节省客户时间成本(具体到小时) 3)结尾提出2024年考CPA的学习计划" → 输出可直接提交的总结,合伙人评价"有数据有思考" 2. 学生党:高效攻克学术任务 场景:备考雅思 - 错误提问: "雅思阅读怎么提高" → 没法给予精准建议 - 公式化提问: "我目前阅读稳定在6分,急需2周内提升到7分: 1)针对Heading题和判断题设计专项训练计划 2)推荐3篇《经济学人》高频考点文章 3)整理近义词替换陷阱表" 3. 博主:打造爆款内容 场景:节日热点营销(某美妆博主实战案例) - 错误提问: "写情人节彩妆文案" → 生成"甜蜜约会妆"的过时内容 - 公式化提问: "作为油痘肌博主,针对情人节设计'持妆12小时不翻车'教程: 1)包含3款平价控油单品实测对比 2)用'和男友吃火锅也不脱妆'的真实场景 3)结尾发起'最惨脱妆经历'投票" 四、3步实操法,今天就能用 1. 拆解需求 - 拿出一张纸,写下: ▶ 我的身份是______ ▶ 我要解决______问题 ▶ 必须包含______细节 ▶ 想要______格式的结果 2. 套用公式 按"身份→任务→细节→格式"顺序重组问题: > "作为(身份),请(任务),要求(细节),用(格式)输出" 3. 迭代优化 - 第一版答案不满意?继续补充细节: ▶ 增加:"请重点说明______" ▶ 限制:"排除______情况" ▶ 调整:"改为______风格" 现在就用这个公式重新提问 1. 打开最近一次不满意的AI对话 2. 用"身份+任务+细节+格式"四要素改写问题 3. 对比前后结果,你会震惊于差距! 在AI时代, 不会提问的人正在被淘汰,会提问的人早已掌控生产力。 【1】推荐阅读:《DeepSeek 常见问题解答》
本文基于最新的 DeepSeek 模型发布,探讨了从高效训练、推理成本到美国和中国在 AI 领域的竞争格局等多重话题。文章阐释了 DeepSeek 在芯片禁令背景下如何通过极端优化突破硬件限制,并对"蒸馏"对行业的影响、Nvidia 和其他科技巨头的前景,以及开源与合规监管的博弈进行深度剖析。作者还呼吁在面对创新竞争时,美国应更主动地投入研发,而非单纯依赖限制政策。
作者简介: 本·汤普森(Ben Thompson)是科技商业分析网站 Stratechery 的创始人,专注于从战略与商业角度剖析科技与媒体行业,并对技术变革如何影响社会进行深入解读。
译文: ***
今天是 1 月 27 日(星期一)。你怎么还没写过 DeepSeek?其实我已经写过了!我在上周二那篇关于 R1 的文章里就提到了。
原来如此,我都忘了。
是我的疏忽。我依然坚持那篇文章里的观点,尤其是两个重点:一是通过纯粹的强化学习(reinforcement learning)所涌现的链式思维(chain-of-thought),二是"蒸馏"(distillation)的强大威力。我当时也提到了低成本(在 Sharp Tech 节目里有更多扩展)以及芯片禁令的影响。然而,这些讨论更多是针对 AI 当前的技术最前沿,而没能预见这一新闻在美国和中国的宏观层面将带来的更广泛影响。
你有没有出现过类似的"错判"?
确实有过。2023 年 9 月,华为发布搭载由中芯国际(SMIC)生产、7nm 制程芯片的 Mate 60 Pro。当时紧盯行业动态的人对此并不惊讶:因为 SMIC 早在一年前就已经做出了 7nm 芯片(我本人在更早的文章里也提到过这个可能性),而且 TSMC 也曾用纯 DUV 光刻技术量产过 7nm(后续版本才使用 EUV)。另外,英特尔也曾用 DUV 做过 10nm(相当于 TSMC 7nm)芯片,只不过良率低而难以盈利。因此,SMIC 在现有设备基础上做出 7nm 芯片、即使良率不高也不在乎,这一点在我看来并不令人震惊。
然而,我完全没料到在华盛顿出现的过度反应——最终拜登政府将芯片销售纳入了"许可制",正是源于人们对芯片生产细节理解不足,而华为 Mate 60 Pro 的突然出现让他们手足无措。现在看上去,过去 72 小时内关于 DeepSeek 的这波舆论风潮,本质上也是如此:DeepSeek 实际达到的进展和局限固然重要,但更多还是人们先入为主的假设被颠覆,引发的震动才是关键。
DeepSeek 具体发布了什么?
这次引发"周末大震荡"的直接原因是新的推理模型 R1,类似于 OpenAI 的 o1。不过,其实很多导致这次震撼的信息(尤其是 DeepSeek 的训练成本)都在去年圣诞节发布的 V3 模型就已经提到了。而且,驱动 V3 的诸多突破,最初是在 2024 年 1 月公布的 V2 模型时就已经显露了端倪。
这命名方式是 OpenAI 目前的"头号罪状"吗?
只能算"第二大罪状",稍后我们会讨论他们的第一大罪状。
我们倒着说吧:V2 模型是什么?为什么很重要? DeepSeek-V2 带来了两个重大突破:DeepSeekMoE 和 DeepSeekMLA。
• DeepSeekMoE:"MoE" 指的是"Mixture of Experts(专家混合)"。有些模型(例如 GPT-3.5)在训练和推理(inference)阶段会激活整个模型的所有参数;然而实际上,对于某个特定问题,并不需要模型的所有部分都参与。MoE 会将模型划分为多个"专家",只调用与该问题相关的部分。GPT-4 就是一个 MoE 模型,据推测大约有 16 个专家,每个专家约有 1100 亿参数。在 V2 版本中,DeepSeekMoE 进一步细化了专家的划分,包括更精细的专业专家和更泛化的通用专家;并且在训练阶段也改进了路由和负载均衡机制。传统的 MoE 方法往往在训练时会增加通信开销,但 DeepSeek 的做法不仅在推理时效率更高,在训练时也更加高效。 • DeepSeekMLA:这是个影响更大的突破。推理中的主要瓶颈之一在于需要将整个模型和上下文(context window)加载到内存,而上下文窗口每个 token 都需要 key 和 value 两部分,内存占用非常大。DeepSeekMLA(multi-head latent attention,多头潜表示注意力)可以压缩 key-value 存储,从而大幅减少推理阶段所需的内存空间。 这听上去有点晦涩。
其实最关键的应用效果在随后的 V3 发布时才显现出来:V3 进一步优化了负载均衡(降低通信开销),并在训练时采用多 token 预测(multi-token prediction),每一步训练都更"紧凑",又一次降低了总体成本。最终结果令人震惊:DeepSeek 宣称训练 V3 的花费出奇地低——他们用 278.8 万(2,788k)个 H800 GPU 小时就完成了训练,按每小时 2 美元计算,总成本仅约 557.6 万美元。
这数字看起来难以置信 DeepSeek 自己也在论文里明确表示,这只是最终那一次完整训练的成本,不包括研发阶段的各种实验开销。《DeepSeek-V3 论文》中写道:
最后,我们想再次强调 DeepSeek-V3 的经济性(见表 1),这是通过算法、框架与硬件的协同优化实现的。在预训练阶段,每处理 1 万亿 tokens 大约需要 18 万(180K)个 H800 GPU 小时,也就是在 2048 张 H800 GPU 的集群上大约 3.7 天。我们总共预训练了 14.8 万亿 tokens,用时不到两个月,花费 266.4 万(2664K)GPU 小时。加上扩展上下文窗口的 11.9 万(119K)GPU 小时以及后续微调阶段的 0.5 万(5K)GPU 小时,总计 278.8 万(2.788M)GPU 小时。如果按每小时 2 美元的租金来算,总训练成本大约是 557.6 万美元。需要注意的是,这仅包含 DeepSeek-V3 最终正式训练的成本,并不包括此前在架构、算法和数据上的研究与消融实验费用。
换句话说,不要以为能用 557.6 万美元就把 DeepSeek 整个公司给"复制"出来。
我还是不信。
若理解了 V3 的模型架构,这个数字反倒是"驳不倒"的。回顾一下 DeepSeekMoE:V3 总参数量是 6710 亿(671B),但每次推理实际激活的专家仅有 370 亿(37B),即每个 token 计算时只用到 370 亿参数,总共约 3333 亿次浮点运算(FLOPs)。再提一句 DeepSeek 的另一创新:参数存储用的是 BF16 或 FP32,但计算时降到 FP8。这样一来,2048 张 H800 GPU 的总运算能力可达 3.97 EFLOPS(3.97×10^18 FLOPS)。整个数据集有 14.8 万亿 tokens,一算下来,278.8 万 GPU 小时确实够完成一次 V3 的最终训练。当然,这只是最后一次完整训练的耗时,没算前期探索,但确实在理论上说得通。
Scale AI 的 CEO Alexandr Wang 说他们有 5 万张 H100。 (见 此推文)
可能他的消息来源于 Dylan Patel 的推文——对方表示 DeepSeek 有超过 5 万张 Hopper GPU。而 H800 就是 Hopper 架构,只不过由于美国的制裁,它的显存带宽被削弱了。
问题就在于:我前面说的那些改进,几乎都是为了弥补 H800 在带宽不足上的缺陷,并把模型架构和训练基础设施都做了深度优化。换言之,DeepSeek 之所以能在 H800 上完成尖端训练,正是因为做了很多超低层级的优化——他们还使用了 PTX(相当于 Nvidia GPU 的汇编语言)来手动管理其中 20 个处理单元做跨卡通信,这在 CUDA 层面是不可能完成的。没有 H800 带宽的"限制",也就不会逼着他们去做如此极限的优化。
此外,DeepSeek 在模型上线后也要提供推理服务,这还需要额外的 GPU 资源来支持商业化推理负载。
那这算不算违反芯片禁令? 不算。美国禁售的是 H100,但没有禁售 H800。此前大家都以为:顶级模型训练需要更高的芯片间带宽,H800 在带宽上有阉割,会卡住中国的研发进程。结果 DeepSeek 的做法正好绕过了这一弱点。
值得注意的是,DeepSeek 专门为 H800 做了很多架构设计上的选择;如果他们能拿到 H100,也许就会用规模更大的集群,而无需针对带宽做如此深入的"极限优化"。
那 V3 真的算"全球顶尖"吗? 从效果看,V3 至少能和 OpenAI 的 4o 以及 Anthropic 的 Sonnet-3.5 一较高下,而且似乎比 Llama 最大的版本更强。有一种广泛猜测是,DeepSeek 用"蒸馏"(distillation)方法从这些模型上学到了高质量的数据,用于训练自己的模型。
什么是"蒸馏"? "蒸馏"指的是一种从教师模型中"提炼"知识、训练学生模型的方法。最常见的做法是:把各种输入扔给教师模型,记录它的输出,再用这些输入-输出对来训练学生模型。像 GPT-4 Turbo 就是 GPT-4 自己蒸馏出来的版本。
自己给自己模型做蒸馏是最容易的,因为拥有完全访问权限;但是利用别人的模型也不是不可能,可以通过 API,甚至一些更"取巧"的方式(比如在线聊天)来获取大规模输入输出对。 从版权、使用条款的角度看,这当然可能违反其他模型服务的使用协议,但实际操作上往往很难阻止,除非彻底封杀 IP 或者严格限流。因此大家普遍认为行业内广泛存在蒸馏行为,这也是为什么越来越多的模型在质量上都接近 GPT-4o。
这对最顶尖的模型提供者来说不是很糟吗? 确实很不利。一方面,OpenAI、Anthropic、Google 等公司用蒸馏来做自己内部的推理优化,这有助于对外提供更便宜的推理服务;另一方面,他们也承担着"最前沿研发"的巨额投入,而其他竞争对手却可以用蒸馏"免费搭车"。 这也解释了微软与 OpenAI 渐行渐远的重要经济因素:微软想做推理服务给客户,但不太想投数百亿美元建数据中心来研发和训练最前沿的模型,毕竟可能在硬件折旧期还没结束前,模型就已被广泛蒸馏、市场竞争激烈、定价下跌,无法回本。
这就是所有大型科技公司股价暴跌的原因吗? 从长期来看,模型的"商品化"以及推理成本下降,对大型科技公司反而是好事——微软将来给客户提供推理服务成本更低,或者用同样的支出获得更多的使用量。对亚马逊也一样:AWS 自己没做出足够强的模型,但如果有高质量的开源模型,它只需要提供云端推理,就能赚钱。
苹果也受益匪浅。推理所需的内存大幅下降,使得设备端推理更可行,而苹果在硬件方面(尤其是统一内存架构的 Apple Silicon)有极大优势:CPU、GPU、NPU 共用一块大内存,高端机型内存可以到 192GB,而民用 Nvidia 显卡 VRAM 上限一般只有 32GB,这对本地推理大有裨益。
Meta 可能是最大赢家。我在去年秋天就提到,Meta 的所有业务都能从 AI 受益;唯一的瓶颈就是推理的成本。若训练和推理成本双双下降,Meta 的想象空间就更大了。
谷歌则相对尴尬:如果硬件要求降低,TPU 的优势就不那么明显;更重要的是,如果推理成本趋近于零,各种搜索替代方案就会加速涌现。诚然,谷歌也能享受低成本优势,但它现有的搜索地位意味着任何改变现状的力量都带来风险。
那为什么股价还是掉了? 我所描述的是长期走势;眼下市场正消化 R1 出现这一事实的短期冲击。
你还没详细说 R1 啊。 R1 就是一个跟 OpenAI 的 o1 类似的"推理模型"(reasoning model),擅长代码、数学、逻辑等需要逐步思考的任务。
比起 V3,R1 更厉害吗? 从行业影响来看,V3 展现的那些低成本、高效率能力其实更具冲击力。但 R1 也有两点值得注意:
1. OpenAI 的 o1 之前几乎是市面上唯一的高水平"推理模型",因此给人印象中它有某种难以复制的"独门秘方"。 2. DeepSeek 的模型全部开源权重(或说"开放权重",数据没有公开),所以任何人都能自己下载运行,而不必付钱给 OpenAI;加上 DeepSeek 做了很多推理层面的优化,这意味着"自部署"可以更便宜。 DeepSeek 是怎么做出 R1 的? DeepSeek 实际上发布了两个模型:R1 和 R1-Zero。我个人认为 R1-Zero 更值得关注。 我在上周二的文章中做过详细分析,这里概括一下:
• R1-Zero 采用的是纯强化学习(pure RL),而不是"人类反馈强化学习"(RLHF)。它用 DeepSeek-V3 作为基础模型,只提供算数、代码、逻辑等题目的奖励函数(解答正确、思考过程符合某种链式推理结构)。没有人类在环(HF),纯粹让模型在奖励指引下自我演化。 • 与 AlphaGo 类似,R1-Zero 只知道要赢(在这里就是得到正确答案),却并不知道具体过程。结果它自己"学会"了推理和链式思考,甚至出现了 DeepSeek 称为"灵光乍现"(Aha Moment)的现象:中期版本学会了"先退一步,再多想一下",从而提高解题准确率。 • 不过,R1-Zero 在最终表现上,文本可读性不佳,有时会混杂多种语言,输出风格混乱。 • 因此 DeepSeek 又在后期加了少量监督数据做"冷启动"(cold-start),然后再做强化学习,最后还做了一些编辑、精修步骤,生成了完整的 R1。R1 的最终效果可与 OpenAI o1 相媲美,而且可读性和格式更好。 这背后也有蒸馏的可能性——尤其是在 R1 训练时是否用了来自 o1 或 Claude 的数据。总之,无论如何,AI 正在自我学习,又能相互学习,这就是"加速"的现实版。
【内容太长放不下……】
原文:网页链接 翻译:网页链接
【2】@宝玉xp Anthropic CEO Dario 刚发的《关于 DeepSeek 与出口管制》推荐看看,他的意思很明确: 1. DeepSeek 的技术并非"颠覆性突破" DeepSeek的技术进展虽值得重视,但并没有颠覆大语言模型的经济学本质。它依旧遵循AI研发成本持续快速下降的"规模化曲线",并非对美国AI公司构成"无法追赶"的威胁。 2. 对华芯片出口管制很重要 Dario强烈支持美国对华芯片的出口管制。他认为,要想阻止中国在AI领域大规模崛起,最重要的是卡住海量顶尖芯片的供应,避免形成"中美双极"而保有"美国单极"地位。 3. 以后谁有足够的芯片谁就先能研发出超越人类的 AI (AGI?) 随着技术持续升级,各大企业可能投入数十亿美元、数百万颗芯片来训练"超越人类大部分能力"的AI。谁能获得这些资源,谁就会在全球科技竞争中夺得主动权。 原文: 网页链接全文翻译: Anthropic CEO Dario Amodei 最新对于 DeepSeek 的回应:关于 DeepSeek 与出口管制
【3】DeepSeek与OpenAI比较
【4】@岛兰图娅 Deepseek奶奶,爱你晚安💤
【5】西雅图黄都督 还是很多人不明白为什么Deepseek在欧洲存在GDPR违规问题,以下让Deepseek自己回答一下:
意大利当局指出DeepSeek涉嫌违反GDPR(《通用数据保护条例》)并调查的主要原因可能涉及以下几个合规层面的问题,即使DeepSeek在欧洲没有设立实体,仅通过应用商店向欧盟用户提供服务:
1. GDPR的适用范围:属地管辖的扩展 GDPR的管辖范围不仅限于欧盟境内注册的公司,只要满足以下任一条件,即受GDPR约束: 向欧盟居民提供商品或服务(无论是否收费); 监控欧盟居民的行为(例如通过App收集用户数据)。 因此,即使DeepSeek在欧盟没有实体,只要其App在欧盟市场上架并面向欧盟用户提供服务,即需遵守GDPR关于数据处理的规则。意大利当局可能认定DeepSeek未履行相关义务。
2. 数据跨境传输的合法性缺陷 GDPR第五章严格限制个人数据向欧盟以外国家(第三国)传输,要求传输必须满足以下条件之一: 充分性认定:目标国家已被欧盟认定为数据保护水平"充分"(如日本、韩国等); 适当的保障措施:如签订欧盟标准合同条款(SCCs)、采用有约束力的企业规则(BCRs)等; 用户明确同意(需满足严格条件)。 若DeepSeek将欧盟用户数据传输至中国或其他未经"充分性认定"的第三国服务器,且未采取上述合法机制(如未签署SCCs或未告知用户并获得有效同意),则构成违规。
3. 透明度与用户权利的履行不足 GDPR要求企业向用户清晰说明数据处理行为,包括: 隐私政策透明性:需明确披露数据跨境传输的目的、接收方国家及法律依据; 数据主体权利保障:如用户访问权、删除权(被遗忘权)、可携权等。 若DeepSeek的隐私政策未充分披露跨境传输细节,或未提供便捷的渠道供用户行使权利,意大利当局可能认定其透明度不足,侵犯用户权利。
4. 未任命欧盟代表 根据GDPR第27条,非欧盟企业若需遵守GDPR,必须书面任命一名欧盟境内的代表(如律师事务所或咨询公司),作为监管机构和数据主体的联系点。未履行此义务本身即构成违规。
5. 数据保护影响评估(DPIA)缺失 若DeepSeek的数据处理活动涉及高风险(如大规模分析用户行为、处理敏感信息),GDPR要求其进行**数据保护影响评估(DPIA)**并采取风险缓解措施。若未执行,可能被认定为系统性违规。
意大利当局可能的处罚依据 跨境传输机制缺失:未使用SCCs、BCRs或其他合法工具; 未履行用户告知义务:隐私政策未明确说明数据流向第三国; 未任命欧盟代表:违反GDPR程序性要求; 未响应数据主体请求:如用户要求删除数据但未及时处理。
合规建议 完善跨境传输机制:与中国服务器接收方签署SCCs,或在隐私政策中明确用户同意机制; 任命欧盟代表:选择欧盟境内实体作为法定联系人; 更新隐私政策:明确数据流向、法律依据及用户权利行使方式; 建立数据主体请求响应流程:确保用户可便捷行使删除权、访问权等; 进行DPIA评估:针对高风险数据处理活动。
总结 即使企业未在欧盟设立实体,只要其服务触达欧盟用户,GDPR的"长臂管辖"即可适用。DeepSeek被指违规的核心在于未建立合法跨境传输机制、透明度不足及程序性义务缺失。跨境数据流动的合规设计是全球化企业必须应对的挑战。
【6】?
【7】@阑夕 因为始终没有等到真正意义上的杀手级应用,AI很大程度上依然是一个新闻/资讯驱动型的行业,也就是隔三差五来一波「炸裂」,更新一下人类岗位被取代的进度百分比,然后大家继续该吃吃该喝喝,循环往复。 而普通人到底能用AI做什么,回答这个提问本身就是最大的PMF,大大小小的AI公司过去一年里都在寻找答案,但没有人敢自称已经找到了,别问,问就是未来可期。 在我看来,DeepSeek-R1的最大贡献,其实是把高阶AI给平权了,之前整个行业都在走生产力导向的路线,重视AI的提效价值,由此把高算力成本合理化,用「星际之门」这样的宏大工程叠加资本预期,成了唯一正确的方向。 所以Sam Altman说200美金/月的ChatGPT Pro在账面上是亏损的,OpenAI和微软合作了那么久,一旦新的数据中心需求被卡审计了,马上转头就和甲骨文勾兑上了,狼性归狼性,这条路确实是会越走越窄的。 AGI固然是个好东西,但它显然不应该建立在用起来肉疼这个前提上,无时不刻的向用户施以心理暗示,每次提问有没有创造足够的价值,如果没有,就不要浪费寸卡寸金的算力了,这就是生产力导向的叙事。 DeepSeek的最近3代模型,技术转进的阶梯感非常明显,V2是把AI的调用单价打下来,V3是在低价的同时跟上主流大模型,R1是加质不加价直接对齐最前沿的模型能力,保持不变的参数只有普惠这一条。 智能这种资源,也可以像水电煤一样取之即用,而水电煤的普及则会同时造福于工业生产和生活消费两端,对于AI行业来说,这是非常祛魅的设想,所以据我所知,大厂对于DeepSeek的这波出圈,感情上相当矛盾。 倒也不是不能理解,矛盾是因为短期损益和长期受益的混合。 短期损益在于堆卡这种变相发行入场券的游戏规则被打破了,本来可以靠财力储备去限制竞争对手的入局,现在行不通了,每个玩家都可以尽快站在巨人的肩膀上,看看GitHub上和DeepSeek有关的开源项目是怎么雨后春笋般出现的,就明白了。 长期受益在于加速AI的平权实际上有利于整个行业更快扩大消费级市场,而不是只能在降本增效的SaaS市场里作威作福,尤其是考虑到中国的SaaS产值本就疲软,让更多的用户可以一键获得最顶级的模型,为行业创造需求规模,堪称功德无量。 所以我不认同那种认为DeepSeek的成功是一种对抗性的胜利,这太强行了,而且如果你的崛起就会让别人遭殃,这样的狂热捧杀非常败坏路人缘,比如幻方其实是最早开始囤英伟达显卡的公司,要说英伟达因为DeepSeek崩了,梁文锋自己都得扣个问号。 优秀的公司涌现出来,一定会让全行业都变得更繁荣,包括也将推动竞争对手的进步,这和主观意志无关,是经济世界的客观规律。 而且如果你们真的看进去了梁文锋屈指可数的那几次对谈,就会发现他其实是一个纯粹远大于情绪的创业者,采访他的记者说幻方/DeepSeek带有强烈的文化吸引力,无论是组织还是做事,都遵循着有没有热情这个基本逻辑,包括找人也是,热情是藏不住的。 梁文锋自己打的比方,是买钢琴,一来要买得起——原始积累很重要——二来也得有一群急于在上面弹奏音乐的人,所以我很确信他不太会被噪音裹挟,事实上这次爆火,连加班都没怎么增加,发布的更新都是按照既定计划安排的。 不过国产AI行业也是实打实的连续两年没过好年了,不同的是,去年是惊惶焦虑,今年是志得意满,反转情节是真的爽。 很多人可能不太记得一年前是个什么形势了,我来帮你们唤醒一下长期记忆: 2024年2月,OpenAI在龙年大年初五发布了视频大模型Sora,和当时的视频大模型都是动态图片水平完全不同,演示里的运镜和动作无比流畅丝滑,再次上演了让全硅谷都看不懂的剧本。 那会儿的中国AI公司,处于一种集体懵逼的半植物人体征: 市面上能用到的最好产品是百度的文心一言——别笑,真就如此——李彦宏以胜利者的姿势劝大家放弃重复造轮子,字节跳动的CEO梁汝波在内部大会上起头反思公司为什么错过了GPT这场技术革命,朱啸虎锐评国产大模型公司没戏的「投降论」在朋友圈里刷屏,阿里因为FOMO的原因投了「AI六小龙」里的五家后被马云质疑「投这么多是不是看不懂」,腾讯则保持「超出三界外不在五行中」的查无此人状态,再往前一点,王慧文抱病撤出由他一手筹建的光年之外,不可置信的坊间传闻说是意识到追不上了所以才激流勇退⋯⋯ 这就是一年前的真实局面,当时没人能想到,翻盘能够来得如此之快,在短短一年时间里,从不够资格上桌吃饭,到霸榜全球应用商店,急风骤雨,摧枯拉朽。 我要说的是,DeepSeek不是一根孤单的独苗,比偶然更好更好的事情是必然,国产AI阵营这一年来的集体成长,兜住了很有可能是这一代人工业革命的在场权,能够正面迎战饱和式竞争: 有字节这样全量对标的,豆包、扣子、Trae成套开发,走的是用高投入换高回报的路线; 有通义这样正统开源的,通义家族的谱系之发达,已经在各大竞技场里刷了一年的分了; 有月暗这样精耕细作的,Kimi 1.5也是不逊色于o1的思维链模型,就是很不幸的和DeepSeek-R1撞车了哈哈哈; 有快手这样半路杀出的,可灵现在就是全球最强的视频大模型,没有之一,对Sora的幻灭要负全责; ⋯⋯ 甚至完全有理由相信,下一个现象级的国产大模型,可能都是上述没有提到的名字,科研固然没有意外,但市场充满随机性。 最后,建议大家勤用DeepSeek-R1,把它当成一个对话帮手,而不只是查询工具,思维链的展开,可以让你更好的理解如何控制需求(Prompt),并对过程中的偏差进行修正,这比只对结果方案提出「不够大气」的模糊反馈,要高效得多。 做好准备,迎接新的人机共生时代。
【8】诺贝尔文学奖《古拉格群岛》,源自索尔仁尼琴痛苦的个人经历。书中的一个故事发生在莫斯科省的一次地区党代表会议上,当时正值苏联肃反运动高峰(20世纪30年代末)。
会议结束时,代表们要向斯大林致敬,在场代表(当然清楚有人在密切监视他们)掌声雷动,但过了5分钟,"手都拍疼了,抬起的手臂也开始发酸,上了年纪的人开始喘不上来气……但谁敢第一个停下来呢?"
索尔仁尼琴解释说,"内务人民委员部的人也站在那里鼓掌,看谁会第一个停下来!"
掌声持续不断,6分钟,8分钟,10分钟。"他们在因心脏病发作而倒下之前都不能停手……区领导们强颜欢笑,绝望地面面相觑。他们肯定会一直鼓掌,直到倒地不起。"
终于在第11分钟的时候,一个造纸厂厂长豁出去了,停止了鼓掌,坐了下来。其他人立刻照着做。
当晚,秘密警察逮捕了那位厂长,判他在古拉格劳改营服刑10年。"审讯他的人要他记住,永远不要第一个停止鼓掌!"
【9】@t0mbkeeper 很多庙都有人抢烧"头香",就是年初一的第一炷香。大概是觉得这么能让佛爷看到自己心诚,发功的时候多发一点。 还有人跟我说,某大庙的头香根本不是头香,真正的头香一早方丈就就伺候达官显贵烧了。等开了山门,老百姓一哄而入再烧的顶多是二香,不是头香。 我觉得这里面大家忽视了一个关键问题:佛爷在哪个时区? 如果说还住在天竺,那么新德里时间比北京时间晚两个半小时。你烧头香的时候佛爷大概还没起,不一定能收到信号。 就算佛爷起得早,那还有一个问题:佛爷按农历过日子么?不能说你拜了佛爷,佛爷就按你的日子过吧?我估计还是得按古印度历法,把满月日作为初一。也就说佛爷的年初一其实是咱们的腊月十六。 所以说腊月十六的头香没准更灵。
|