Figure创始人、“小马斯克”解读:人形机器人的“iPhone时刻”

laodang @ 2025年03月18日 财经风云

Figure创始人、"小马斯克"解读:人形机器人的"iPhone时刻"

卜淑情


Adcock指出,自2022年以来,人形机器人在三个关键领域取得了实质性进展:复杂硬件的开发、基于神经网络的学习与模仿能力,以及泛化能力。他认为,如果能在未来五年内彻底攻克这些难题,人形机器人将迎来类似智能手机的"iPhone时刻"。
在AI技术飞速发展的今天,人形机器人正从科幻走向现实。当下最火爆机器人初创公司之一的Figure,正在其创始人Brett Adcock的带领下,正在人形机器人领域掀起一场前所未有的技术革命。这位有"小马斯克"之称的创始人,在近期的访谈中,分享了Figure在人形机器人领域的突破性进展,以及他对未来科技发展的深刻见解。

Adcock表示,人形机器人是通用人工智能(AGI)的最佳载体,不仅能执行复杂任务,还能通过自然交互融入人类生活。他指出,如果AGI只能存在于服务器中,那么它将永远无法真正融入物理世界。

他认为,人形机器人正在迎来类似智能手机的"iPhone时刻",成为人类生活中不可或缺的工具。他预测,未来几年内,人形机器人的价格将大幅下降,而性能大幅提升,最终实现大规模普及。

Adcock还预测,在未来五年内,人形机器人领域需要实现三个关键突破:首先,开发出高度复杂且可靠的硬件,使其能够在真实环境中稳定运行;其次,通过神经网络赋予机器人类似人类的学习和模仿能力,这在人形机器人上尚未实现;最后,解决机器人领域的"圣杯"问题——泛化能力,即让机器人能够通过语音指令理解并执行从未见过的任务,实现端到端的自主操作。

见闻总结要点如下:

人形机器人领域正在发生类似iPhone时刻的事情,这将是一个巨大的突破。人形机器人即将成为现实。问题是,我们只需要沿着这条曲线继续推进,让它更快地进入家庭。我相信,这将在本世纪发生。在未来几年内,你会看到人形机器人通过语音控制进入家庭,能够长时间工作而无需任何提示。

如果我们解决了AGI,但它只是存在于某个服务器中,比所有人都更聪明,最终,如果它想在物理世界中做些什么,它将不得不请求人类去做。人形机器人是AGI的终极部署载体。

我们设计的是一种能够胜任各种任务的机器人,从家庭机器人到遛狗、煮咖啡、洗衣服,再到商业劳动力——大约一半的GDP是人类劳动。这是世界上最大的市场。目标市场规模是50万亿到60万亿美元。

未来你会看到这些机器人的价格在2万到3万美元之间。我们在材料成本方面做了很多工作。如果你从头开始分解,逐项分析,看看它在大规模制造中的样子,系统中目前没有任何迹象表明这个产品会非常昂贵。

我们需要在接下来的5年左右时间里做到三件从未有人做到的事情。首先,我们需要打造一款极其复杂的人形机器人硬件。其次,你必须通过神经网络,让机器人像人类一样学习和模仿。这在人形机器人上从未被解决过......第三,你需要解决一个机器人领域的"圣杯"问题:泛化能力。你需要让机器人通过语音指令理解它从未见过的任务,并且能够用一个神经网络完整地执行这个任务,从头到尾。

真正困难的部分是,机器人需要解决家庭环境中的泛化问题。每个家庭都是不同的。你知道,我们都有不同的烤箱、不同的锅铲、不同的餐具,而且这些物品的摆放位置会不断变化。所以,你必须解决这种"语义智能",也就是人类世界与机器人世界之间的语义连接。

机器人在互相移动时需要进行一定程度的交流。从机器人与人类的互动设计角度来看,这非常重要.....我们需要让机器人学会人类的表情,就像我们需要它们学会抓取物品一样。随着我们大规模地将机器人引入整个世界,这种能力将变得至关重要。

(人形机器人)有两个主要的应用方向:劳动力市场和家庭市场。很多人没有意识到的是,劳动力市场才是最大的市场,它占据了GDP的一半。机器人在劳动力市场中执行的任务大多是重复性的,而家庭市场则像"狂野的西部",极其复杂。家庭市场的复杂性远高于劳动力市场。

以下为访谈实录全文,由AI翻译

旁白:

非常荣幸能向大家介绍Brett Adcock,Figure的创始人兼首席执行官。

主持人:

你们从零开始,在短短31个月内就推出了第一台机器人。

Adcock:

我们每12到18个月设计一个新的硬件平台。在我提交C公司注册文件之前,我们的机器人在不到12个月的时间内就已经能够行走。我认为在未来几年,你会看到它通过语音控制被放入家庭中,能够长时间工作而无需任何提示。人形机器人领域正在发生类似iPhone时刻的事情,这将是一个巨大的突破。

主持人:

现在,女士们、先生们,这是一个宏伟的目标。我想大多数人都知道,新闻媒体总是给我们带来负面消息,因为我们对负面消息的关注度是正面消息的10倍。对我来说,唯一真正值得投入且能影响人类的是科学和技术的使用。这就是我关注的内容。每周我都会发布两篇博客,一篇关于人工智能和指数技术,另一篇关于长寿。

好的,让我们回到这一集。感谢你今天来到这里。是的,谢谢。我知道,你有三个年幼的孩子,还有一个机器人工厂和一个令人难以置信的工程师团队,你真的很忙。我不会认为这是理所当然的。是的,我唯一的请求是下次我想要一台Figure机器人。

Adcock:

好的,我明白了。

主持人:

宝马已经预订了它们的生产线份额。

Adcock:

是的,我们确实有很多。实际上,我们每天都在运行它们。所以,它们今天就在那里运行,就在他们最大的工厂里。

主持人:

为什么你要创办Figure?我是说,你已经取得了令人难以置信的成功,Archer也非常出色。然后你跳进了可能是最难进入的行业之一。

Adcock:

是的,我认为我们真的需要为AGI找到一种方式来赋予它一个身体。我认为,如果我们解决了AGI,但它只是存在于某个服务器中,比所有人都更聪明,最终,如果它想在物理世界中做些什么,它将不得不请求人类去做。人形机器人是AGI的终极部署载体。你无法用其他东西解决这个问题。你需要某种单一平台,无需硬件更改就能做人类能做的一切。你还需要某种对神经网络有益的东西。人形机器人中的神经网络可以通过迁移学习实现多任务处理,这非常适合神经网络。因此,我们基本上可以构建一个单一的神经网络基础模型,为整个机器人提供端到端的全部功能。

主持人:

恭喜你,你们从零开始,在31个月内就推出了第一台机器人,这非常了不起。许多公司在这么长的时间内可能只是准备好他们的PPT并筹集了第一笔资金。我将会看到一些机器人,当我上次去北边拜访你的时候,你向我展示了Figure 1,还有Figure 2,还有Figure 3的设计。

让我感到真正惊叹的是你们迭代的速度。你能谈谈这一点吗?快速迭代在硬件领域有多重要?因为硬件很难。

Adcock:

是的,这是一个难题。我们必须想出一种从未有人做过的事情。这是一个非常复杂的系统,从工程角度来看,它肯定比Archer更复杂,就像建造一架电动飞机一样。所以,我的经验法则是,第一代或第二代硬件总是会很糟糕。你知道,第一代iPhone并不好。第一次做某事时,你永远无法一次就做对。硬件就是这样。你必须能看到五年后的未来,确切地知道产品是什么样的,然后从第一天起就进行全新的设计。如果你在这些方面犯了错误,你可以通过设计过程来修正。你有很长的前置时间、供应链,等等。所以,我们每12到18个月设计一个新的硬件平台。

主持人:

顺便说一下,这听起来真的很令人惊叹,对吧?每12到18个月就进行一次全新的迭代。

Adcock:

是的,我们在提交C公司注册文件之前,就已经让Figure 1实现了行走,不到12个月。

主持人:

另一件你们做到的事情是你们实现了完全的垂直整合。

Adcock:

是的,这并不是必要之举。人形机器人没有供应链。没有电机供应商,没有传感器供应商,没有电池系统供应商,没有运动学结构供应商……所有软件也是如此,相当广泛。包括固件、嵌入式系统、操作系统、中间件、控制系统。

主持人:

那么,带我们参观一下你的工厂吧。你之前已经带我参观过,但像,设计方面……你是如何从头开始设计的?

Adcock:

是的,我们从头开始全新设计所有东西。我们从本质上思考产品需要做什么。产品需要能够与人类交流,并且能够在没有任何人类干预的情况下完成任务。它需要能够出去完成任务。所以,我们设计的是一种能够胜任各种任务的机器人,从家庭机器人到遛狗、煮咖啡、洗衣服,再到商业劳动力——大约一半的GDP是人类劳动。这是世界上最大的市场。

主持人:

全球GDP是110万亿到120万亿美元。你的目标市场规模是50万亿到60万亿美元。这很不错。

Adcock:

是的,这将会成为我们有生之年最大的业务,远远超出其他领域。这个领域……是的,所以,我们从产品需要进入的终端市场开始思考。我们进行所有硬件设计,包括运动学设计、关节、电机、电池系统、传感器。我们进行所有软件设计,包括固件、嵌入式系统、控制系统、所有人工智能工作,端到端。然后我们进行所有测试、制造、集成,并将它们交付给客户。所以,我们现在有两家企业客户。第一个是宝马。我们的机器人每天都在那里运行。它们在南卡罗来纳州的斯巴达堡,帮助制造汽车。

主持人:

我想我有一些宝马工厂的视频,如果我们可以播放背景视频或重复播放这段视频。

Adcock:

好的,我们可以播放。我们还有一些机器人在宝马工厂的视频。这些机器人基本上是在将金属板材固定在夹具上。这是世界上每一家大型制造公司都在做的事情。我们的机器人已经完全自主地完成了这项任务,达到了我们需要的高性能,没有人工干预,没有故障,没有失败。

主持人:

没有药物测试。没有病假。没有休息日。

Adcock:

是的,24/7全天候运行。

主持人:

这很有趣,对吧?让我跳到另一个问题。从体积上看,我相信我听到你说过,未来你会看到这些机器人的价格在2万到3万美元之间。

Adcock:

是的,我们在材料成本方面做了很多工作。如果你从头开始分解,逐项分析,看看它在大规模制造中的样子,系统中目前没有任何迹象表明这个产品会非常昂贵。

主持人:

我的计算是,如果我要租一辆3万美元的车,每月大约是300美元,也就是每天10美元,每小时40美分。所以,我的问题是,如果你每月支付300美元,就能拥有一台24/7运行、从不抱怨、不会和女朋友或男朋友吵架的机器人,你会想要拥有多少台呢?我认为,每个人可能都需要拥有多台。

Adcock:

是的,你会想要一台的。它们可以在你每天早上醒来时帮助卸下洗碗机,捡起孩子们的玩具。我再也不想做这些事了。你知道,这些事我再也不想做了。我们已经很久没有在家庭中看到创新了,差不多50到70年了。它们是相同的电器,相同的东西。我们需要新的机器人。

主持人:

我们需要旧的,我们现在称它们为洗碗机。

Adcock:

是的,它们已经存在很长时间了。我们人类不得不每天与这些机器打交道。未来你不需要再这样做了。你只需要和机器人说话,让它去做。它可以按照时间表工作。你可以随时呼叫它、发短信给它、和它说话,让它去做事,它就会去做。它会比你自己更了解你。

主持人:

我记得几年前,我很自豪地成为Figure的早期投资者,我把团队介绍给你。我说,首先,布雷特是一位出色的运营者,有多个成功案例。未来最好的预测器是什么?是一个人在过去做过什么。这确实是未来最好的预测器之一。但我发现最令人惊叹的是你组建的团队。你能谈谈这一点吗?因为我认为我们这里有很多观众都在关注他们的宏伟目标。这是一个宏伟目标。你退出Archer后,你是如何开始的?你是如何组建团队的?你能描述一下那个早期时刻吗?

Adcock:

是的,你知道,我在一生中并没有创办过很多公司。每次我都会回去思考,我哪里做错了?哪里做对了?如何让事情变得更好。

从根本上说,我花时间思考的是,要打造世界上最伟大的产品,你需要世界上最伟大的团队。然后你需要将这个团队与共享愿景对齐,每个人都需要对这个愿景负责,理解它。然后你需要弄清楚如何全力加速。

所以,Figure的整个文化,甚至在我创办Archer并组建最初的团队时,都是非常有意识的。即使在Figure,如果你现在去左边,我们有文化手册,我们有总体规划,我们有一些真正独特的东西。我们在硅谷,但几乎与硅谷的风格相反。我们必须每天在办公室工作。我们每周工作五到七天,非常努力。现在很多人不想这样,这没关系。只是他们不适合我们。我们现在已经聚集了世界上最好的航空航天工程师。没有人能接近我们所做到的。

主持人:

是的,这真是令人难以置信。

Adcock:

是的,这太不可思议了。我的整个商业团队从Archer时期就和我在一起,现在也在Figure。他们都是出色的运营者。他们给了我能力去专注于产品工程,打造最好的产品。他们帮助扩展业务,这很棒。招聘、人力资源、法律、财务,各个方面都很出色。所以,团队非常出色。但更重要的是,我们的文化非常精准。就像每个人都知道自己应该做什么。我不需要进行一对一的沟通,因为我们的团队有一个共同的愿景,那就是推出产品。这就是我们的动力所在,也是我们所有人共同的目标,这真的很好。这是一个非常困难的事情。人形机器人可能是我从事过的最复杂的项目之一。如果没有这种文化,我们根本无法实现目标。

主持人:

你知道,我们明天会听到特拉维斯·克朗(Travis Klang)的分享,他也会说类似的话——你的"巨大变革目标"、清晰的使命和愿景,以及如何围绕这些目标来组织团队和文化。这都始于你。你用自己的资金启动了这个项目,然后开始联系其他公司的人。你当时的说辞是什么?是为了筹集资金,还是为了吸引员工加入?不,是为了让员工加入。

Adcock:

哦,那么你在2022年的说辞是:"我会资助这个项目多年。你知道,这很昂贵。我们在最初的六个月里就达到了每月100万美元的烧钱速度。但这并不是说没有风险,我只是从一开始就全力以赴。我非常清楚我们要做什么。

你知道,Archer在某种程度上就像一架飞行机器人。所以我知道如何组建团队,我知道产品要做什么。我对动力系统、控制系统、软件和传感器的技术细节有深刻的理解。所以我们很快就行动起来了。我的说辞是:"嘿,我会资助这个项目,所以至少在未来几年内不会有资金风险。我们有机会打造下一个'iPhone时刻'。人形机器人领域即将迎来这样的时刻,这将是一个巨大的机遇。"

主持人:

那么,你告诉他们成功的概率是多少?

Adcock:

成功的概率很低。我们需要在接下来的5年左右时间里做到三件从未有人做到的事情,否则我们肯定会失败。首先,我们需要打造一款极其复杂的人形机器人硬件。它不能出故障,必须始终正常工作,并且要以人类的速度和灵活性运行。从来没有人做到过这一点。比如,波士顿动力的机器人虽然可以跳跃、翻跟头,但还无法做到像人类一样灵活地操作物体。这是一个硬件系统的巨大挑战,可能和制造喷气发动机一样复杂。

其次,这是一个神经网络问题,而不是控制问题。你不能通过编写代码来解决这个问题。你不能雇佣一堆博士,让他们为机器人编写程序来解决每一个问题。你必须通过神经网络,让机器人像人类一样学习和模仿。这在人形机器人上从未被解决过,因为这是一个高维度的系统,而不是像桌上的机械臂那样简单,后者大多数都没有人工智能。

第三,你需要解决一个机器人领域的"圣杯"问题:泛化能力。你需要让机器人通过语音指令理解它从未见过的任务,并且能够用一个神经网络完整地执行这个任务,从头到尾。

我们需要在2022年解决这些问题。如果我们能做到,我们就会在这个十年内取得成功,打造出人形机器人领域的"iPhone时刻"。我们已经全面启动了。但在2022年,这些看起来几乎是不可能完成的任务。当时,波士顿动力的机器人虽然可以做很多动作,但还远远达不到进入家庭所需的灵活性和操作能力。现在,我们可以说我们已经在这些方面取得了实质性进展。

主持人:

这太令人惊叹了。

所以,去年有一个关键的时刻,你说OpenAI是一个重要的投资者,你们原本计划使用OpenAI的AI系统,但你最终决定自己开发内部的AI系统——Helix。你能谈谈这个决定吗?我想展示一段关于Figure在家庭中应用的视频。

Adcock:

好的。你看到的是Helix,这是我们内部开发的大型AI系统,它是一个视觉-语言-动作模型。这段视频是公开的,可以在YouTube上找到。科里(Corey)是Helix团队的负责人,他给出的指令是"把杂货放在桌子上"。

但机器人并没有被告知这些杂货应该放在哪里,也没有被告知它们是什么。实际上,我们在训练中故意没有让机器人接触过这些物品。所以,这是机器人第一次通过自己的摄像头和传感器看到这些物品。真正困难的部分是,机器人需要解决家庭环境中的泛化问题。每个家庭都是不同的。你知道,我们都有不同的烤箱、不同的锅铲、不同的餐具,而且这些物品的摆放位置会不断变化。所以,你必须解决这种"语义智能",也就是人类世界与机器人世界之间的语义连接。

Helix能够通过单个神经网络在每个机器人之间进行通信,并且能够将这些物品正确地放置到位。这可能是机器人历史上最重要的AI更新。未来所有能动的物体都将是机器人,它们将由像这样的AI代理驱动。这个系统是用非常少的数据训练的,只有500小时的数据。

主持人:

我非常喜欢他们互相看着对方以确认的方式,比如"是的,我明白了",或者"哦,把那个东西放在那里是个好主意"。

Adcock:

是的,这确实很有趣。部分原因是这种行为是从训练中自然产生的。当机器人进行物品交接时,它们实际上会互相看一眼,这是一种信号,表明它们应该在何时松开或抓住物品,以防止物品掉落。这种行为是从训练中自然产生的,非常有趣。另一个原因是,机器人在互相移动时需要进行一定程度的交流。从机器人与人类的互动设计角度来看,这非常重要。你不想走进一个房间,看到机器人只是呆呆地站着,不看你,也不做出任何反应。人类会通过眼神交流、点头和手势来进行沟通。所有这些对于机器人来说都是非常重要的,因为我们需要让机器人学会这些人类的表情,就像我们需要它们学会抓取物品一样。随着我们大规模地将机器人引入整个世界,这种能力将变得至关重要。

主持人:

我有一千个问题想问你。让我快速地提几个。好的,那我们开始吧。Figure 3什么时候能展示出来?我看到了它的设计。Figure 3什么时候能公开展示?

Adcock:

你会一直问我们这个问题。你觉得它好看吗?我认为你已经看到了它。

主持人:

它的设计非常出色。我认为人们还不明白这有多么令人惊叹。

Adcock:

因为我们还没有公开展示,所以他们不知道。你知道,Figure 1是我们在视频中展示的机器人,那是第一代机器人。你可以看到,Figure 1有点粗糙,外面还露着电线,设计得更快速,以便让我们的工程师能够尽快开始进行实际的用例测试。

Figure 2是一个功能完备的机器人,它几乎可以完成人类能做的所有事情。我们还没有公开谈论太多,但我们现在已经完成了Figure 3的设计。我想我们可能会在下周展示一个更新版本。虽然这次更新可能不会涉及太多技术细节,但Figure 3相比前代产品是一个巨大的飞跃。从Figure 1到Figure 2,已经是一个巨大的飞跃,从一个大学宿舍项目的原型到一个相当不错的机器人。而Figure 3的飞跃同样巨大。我们花了18个月从头开始设计它。从高层来看,它比前代产品便宜了90%,更小、更轻,配备了更好的传感器。它的手部、头部和脚部的设计完全为神经网络优化。这可以说是我职业生涯中最自豪的工程成就之一。我们计划今年开始量产Figure 3,并将其推向市场。

这就是我们希望推向全世界的机器人。我们希望它成本低廉,功能强大,并且在几乎所有方面都更优秀。我们很快会发布更多关于它的更新。这就是我们希望推向家庭和劳动力市场的机器人。

主持人:

关于未来三到四年的生产计划,以及我什么时候能在家里看到它?

Adcock:

我们有两个主要的应用方向:劳动力市场和家庭市场。很多人没有意识到的是,劳动力市场才是最大的市场,它占据了GDP的一半。我们可以在家庭市场收取更高的价格,但家庭市场也更复杂。机器人在劳动力市场中执行的任务大多是重复性的,而家庭市场则像"狂野的西部",极其复杂。我们面临巨大的安全挑战,例如确保机器人不会撞到人或引发危险,比如打翻蜡烛引发火灾。家庭市场的复杂性远高于劳动力市场。

目前,我们在劳动力市场的需求非常旺盛。我们的前两个商业客户——宝马和其他一家大型物流公司——已经对我们的机器人表现出极高的兴趣。如果今天有10万台机器人可用,这些客户会立刻购买。我们还与50家财富100强公司进行了接触,他们都对我们的产品表示了强烈的兴趣。劳动力市场的需求几乎是无限的,因为全球人口结构的变化导致劳动力短缺,尤其是在制造业和物流领域。

我们计划在家庭市场进行内部测试,最早可能在今年开始。我们的目标是让机器人能够通过语音指令完成各种家务任务,比如收拾餐具、照顾孩子、做家务等。我们相信,随着Helix的不断进步,机器人将能够在家庭环境中自主学习和执行任务,而不需要人类的持续指导。

我们面临的最大挑战仍然是语义智能,即机器人需要理解它所处的环境并正确执行任务。我们相信,通过增加训练数据量,Helix将能够更好地理解家庭环境。目前,Helix的训练数据量还比较有限,只有大约500小时。我们计划在未来几个月内大幅增加数据量,以提升机器人的性能。

目前,Helix的训练数据量还比较有限,只有大约500小时。我们在网站上提到Helix时,展示了一个小实验:把一些奇怪的小物件放在机器人面前,比如从孩子房间里拿出来的仙人掌玩具,然后告诉它"捡起那个沙漠物品",它会把仙人掌识别为一种沙漠植物。它能够识别并捡起这些物品。所有这些都存储在它的权重中,它有一个很大的语言模型作为支撑。因此,它真的理解了世界的语义基础。

我们觉得,现在Helix只是数据受限。如果我们把训练Helix的数据集增加几个数量级,它可能会表现得更好。目前,Helix已经能够识别并捡起我们放在它面前的几乎所有小物件。比如,我们放了一个会唱歌、会动的玩具仙人掌,它识别出了这是一个"沙漠物品",并将其捡起。所有这些都存储在它的权重中,它有一个很大的语言模型作为支撑。所以,它真的理解了世界的语义基础。

我们只需要更多的数据,这基本上是目前的瓶颈。我们觉得,只要增加Helix训练的数据量,它就能更好地理解家庭环境。目前,Helix已经能够很好地完成任务,比如识别并捡起我们放在它面前的物品。它甚至可以通过语义理解来完成任务,比如当我们说"把那个沙漠物品捡起来",它会把仙人掌识别为与"沙漠"相关的物品并捡起它。所有这些都表明,Helix已经具备了很强的语义理解能力。

我认为,我们已经开始看到一些突破性的进展,这在历史上从未有过。人形机器人即将成为现实。问题是,我们只需要沿着这条曲线继续推进,让它更快地进入家庭。我相信,这将在本世纪发生。在未来几年内,你会看到人形机器人通过语音控制进入家庭,能够长时间工作而无需任何提示。

主持人:

好的,感谢大家收听本期节目。这是我最喜欢分享的内容。每周我都会发布两篇博客,很多内容都来自这里,这些是我的个人笔记,记录了我关于人工智能、长寿以及正在改变我们世界的前沿技术的学习和思考。下周我们再见!

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

打赏一下

微信扫一扫打赏

支付宝扫一扫打赏