“世界模型”——AI下一个“必争之地”,英伟达、谷歌双双下场
tilamisu @ 2025年01月08日 财经风云
"世界模型"——AI下一个"必争之地",英伟达、谷歌双双下场 赵颖 "世界模型"被业内吹捧为是AI领域的下一个关键突破,英伟达,谷歌以及不少初创企业都在追逐世界模型,英伟达推出Cosmos世界模型,谷歌旗下DeepMind组建世界模型研究团队,AI教母"李飞飞的World Labs筹集2.3亿美元构建"大世界模型"...... 来源:硬AI 作者:赵颖 黄仁勋身着新皮衣亮相2025 CES,除了推出炸裂的GPU RTX 5090之外,还宣布入局AI领域当下最关键的方向一"世界模型"。 1月7日,黄仁勋在2025年拉斯维加斯消费电子展(CES)上宣布,推出Cosmos世界模型(Cosmos World Foundation Models,简称Cosmos WFMs),该模型专为理解物理世界打造,可预测和生成"物理感知"的视频。 具体来看,Cosmos WFMs分为三类: (1)Nano:适用于低延迟和实时应用;(2)Super:高性能基线模型;(3)最高质量和保真度输出。 这些模型的参数规模从40亿到140亿不等,Nano最小,Ultra最大。英伟达还发布了上采样模型、针对增强现实优化的视频解码器以及确保负责任使用的guardrail模型。 实际上,除了英伟达,谷歌以及不少初创企业也在追逐世界模型,谷歌旗下DeepMind组建世界模型研究团队,聘请Sora核心人员Tim Brooks掌舵。此外,"AI教母"李飞飞的World Labs、初创公司Decart、 Odyssey也都涉足其中。 不仅引得一众科技企业逐鹿,"世界模型"还被业内吹捧为是AI领域的下一个关键突破,那么"世界模型"到底指的是什么?它的重要之处在于哪里? 英伟达入局"世界模型",一众科技巨头"逐鹿" 据英伟达介绍称,Cosmos WFMs经过了9000万亿个token的训练,数据来自2000万小时的真实世界人类互动、环境、工业、机器人和驾驶数据。模型可针对特定应用进行微调,通过英伟达API和NGC目录、GitHub和AI开发平台Hugging Face可获得。 多家企业已开始试用Cosmos,英伟达表示,Waabi、Wayve、Fortellix和Uber等多家已经承诺在各种用例中试用CosmosWFM,从视频搜索和策划到为自动驾驶汽车构建AI模型。 不过,由于英伟达拒绝透露训练数据的具体来源,这引发了版权争议,分析称这正是英伟达将这些模型称为"开放"而不是"开源"的原因。 与此同时,谷歌DeepMind也在积极布局世界模型领域。根据TechCrunch报道,DeepMind正在组建一支专门的世界模型研究团队,以扩大其在该领域的领先地位。该团队将由前OpenAI研究员Tim Brooks领导,他于去年10月加入DeepMind。 DeepMind上个月发布了Genie,该模型可模拟虚拟世界以及逼真的动画和物理效果,并支持所有这些元素之间的交互。例如用户可以使用Genie创建的各种示例世界,包括航海模拟、赛博朋克西部片等,还可以使用文本、图像或两者的组合来提示Genie。 除了英伟达、谷歌等科技巨头,还有不少耀眼的初创玩家。"AI教母"李飞飞的World Labs已筹集2.3亿美元用于构建"大世界模型",以及Decart、 Odyssey等公司也入局其中。此外,OpenAI此前发布的Sora模型也可视为一种"世界模型",它能够模拟如画家在画布上留下笔触等行为,以及渲染类似Minecraft的UI和游戏世界。 AI领域的下一个关键突破:世界模型 什么是AI"世界模型"?为什么它们很重要? 具体来看,世界模型是指通过大量图像、音频、视频和文本数据训练,创建对世界运作方式的内部表征,并能推理行为的后果。这使它们能更好地理解和模拟现实世界的规律。 世界模型的概念源自人类大脑形成的心智模型,我们的大脑能够将感官获取的抽象信息整合成对周围世界的具体理解,从而形成"模型",这些模型帮助我们预测和感知世界。 世界模型的特点是试图超越数据,模拟人类的潜意识推理,例如,棒球击球手能在毫秒内决定如何挥棒,是因为他们能本能地预测球的轨迹。这种潜意识推理能力被认为是实现人类级智能的先决条件之一。 "世界模型"的意义在于可以实现复杂推理和规划,还将生成式视频技术的突破: 1. 生成式视频技术的突破:世界模型在生成式视频领域展现出巨大潜力。与传统的生成模型相比,具备基本物理规律理解的世界模型能更准确地模拟物体的运动。例如,它不仅能预测篮球会弹跳,还能理解为什么会弹跳。Snap前AI负责人、Higgsfield公司CEO Alex Mashrabov表示,有了强大的世界模型,创作者就不需要为每个物体定义预期的运动方式,模型本身就能理解这些。 2. 复杂预测和规划:Meta首席AI科学家Yann LeCun认为,世界模型未来可能用于数字和物理领域的复杂预测和规划。例如,给定一个脏乱的房间(初始状态)和一个整洁的房间(目标状态),世界模型可以推理出一系列清洁行动,而不仅仅是根据观察到的模式进行操作。 拥有这些能力后,"世界模型"可广泛赋能影视、游戏,自动驾驶以及机器人等行业。 World Labs联合创始人Justin Johnson预测,未来的世界模型可能能够按需生成用于游戏、虚拟摄影等用途的3D世界,大大降低开发成本和时间。世界模型将不仅能获得图像或视频片段,还能得到一个完全模拟的、生动的、可交互的3D世界。 代表好莱坞动画师和漫画家的工会动画协会 (Animation Guild) 一项2024年研究估计,人工智能有可能在未来两年内颠覆美国10多万个电影、电视和动画工作岗位。 世界模型还有望推动机器人技术进步,通过增强机器人对周围环境和自身的感知能力,帮助它们更好地理解所处情境并推理可能的解决方案。 尽管前景诱人,世界模型的发展仍面临诸多技术挑战: 巨大的计算需求:训练和运行"世界模型"需要比当前生成模型更多的计算能力;幻觉和偏见问题:像所有AI模型一样,"世界模型"也会产生幻觉并内化训练数据中的偏见。 训练数据限制:缺乏足够广泛而又具体的训练数据可能会加剧上述问题。复杂行为模拟:目前的模型难以准确捕捉世界居民(如人类和动物)的行为。 过去一年AI技术在多元方向持续突破,世界模型被视为下一个重大突破。虽然距离成熟的"世界模型"还有数年时间距离,但这一技术已展现出巨大潜力。如果所有主要障碍都能克服,"世界模型"有望在虚拟世界生成、机器人技术和AI决策等领域带来重大突破,为人工智能与现实世界的融合开辟新的途径。 风险提示及免责条款 市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
|
推荐内容
- 逆袭!600家小市值公司藏金,机构调研曝光三大爆..
- 特朗普“大重置”:债务化解、脱虚向实、美元贬值..
- 美股三大指数冲高回落,中概股重挫,纳斯达克中国..
- 深夜,重挫!近一个月最大跌幅;鸿蒙智行,连推爆..
- 活久见!美国商务部长上电视“推票”:买特斯拉股..
- 华尔街解读美联储决议:鸽派的亮点与迷你“鲍威尔..
- 深海经济利好持续加码,与商业航天、低空经济并列..
- 美联储的“关键一战”在5月,届时降不了息,那今..
- 李嘉诚押注创新药!和黄医药明星抗癌药海外大卖近..
- “三巫日”前美股反弹一日游,量子计算股暴跌,拼..
- 鲍威尔给经济焦虑“灭火”,标普创八个月来美联储..
- 腾讯要为AI砸千亿重金
- 政治危机升级,反对派领袖被捕引发土耳其股债汇三..
- 3月LPR报价出炉!1年期、5年期均维持不变..
- 五部门:依法稳步推进绿证强制消费,逐步提高绿色..
热点阅读
- 中央经济工作会议:“以进促稳、先立后破”的深意..
- 创业板指震荡跌超1%,北交所个股全线爆发,北向资..
- 美国财长称市场调整是健康的,不保证没有衰退,“..
- 中国央行连续第三个月增持黄金,1月黄金储备环比..
- 500亿量化帝国“幕后推手”:龙头券商财富业务“..
- 道指跌超500点!4.3万亿美元股票期权到期..
- 摩根士丹利:高价科技股的杀盘接近尾声了..
- 大变局!特朗普或被禁止竞选总统?美国首都进入“..
- 神速!这类品种再迎新成员,两大公募巨头助阵,对..
- 2008年以来最高!美国主权CDS飙升,市场预期违约..
- 让全球央妈头疼的难题:房价涨太快了!..
- 币圈大佬、Square前CTO、技术大拿Bob Lee遇刺身亡..
- 555亿卢比资产在印度被扣!小米最新回应..
- 中信:6月可能“降息”
- 央行主管媒体:物价触底回升 人民币汇率形成后续..