Sora背后的关键模型,通往实现AGI的突破?
taiyang @ 2024年03月01日 财经风云
Sora背后的关键模型,通往实现AGI的突破? 常嘉帅 Transformer对Diffusion过程的贡献类似于引擎升级。 横空出世的Sora,以碾压其他文生视频模型的姿态,让全球影视行业从业者瑟瑟发抖,继续为狂飙的AI热潮注入了一针强心剂,也进一步巩固了OpenAI作为GenAI尖端技术领头羊的身份。 不过,驱动Sora的技术,其实是早早几年前就已经出现在人工智能研究领域的Diffusion Transformer架构。 这一架构最出色的地方就在于,它可以让AI模型的规模,突破以往的技术限制,即参数规模越大、训练时长越长、训练数据集越大,生成视频的效果更好。Sora就是这样一个"大力出奇迹"的产物。 什么是Diffusion Transformer 在机器学习中,有两个关键概念:1)Diffusion;2)Transformer。 首先来说Diffusion,大多数可以生成图像、视频的AI模型,包括OpenAI的DALL-E3,都依赖于一种叫做Diffusion的过程来输出图像、视频、音频等内容。 Diffusion的工作原理,是通过连续添加高斯噪声来破坏训练数据(前向过程,forward),然后通过反转这个噪声(逆向过程,reverse),来学习恢复数据。即首先将随机采样的噪声传入模型中,通过学习去噪过程来生成数据。 在模型的逆向过程中,diffusion需要依赖一个叫做U-Net的引擎,来学习估计要去除的噪声。但U-Net非常复杂,其专门设计的模块会大大降低diffusion生成数据的速度。 Transformer则是目前主流LLM如GPT-4、Gemini等模型背后的技术基础。它可以取代U-Net,提高Diffusion过程的效率。Transformer有着独特的"注意力机制"。对于每一条输入数据(如Diffusion中的图像噪声),Transformer都会权衡其他每一条输入(图像中的其他噪声)的相关性,并从中学习,生成结果(图像噪声的估计值)。 注意力机制不仅使Transformer比其他模型架构更简单,而且使架构可并行化。简单来说,也就是说可以训练出越来越大的Transformer模型,同时显著提高计算能力。 Diffusion Transformer这个概念由纽约大学计算机教授谢赛宁与William Peebles(现任OpenAI Sora的联合主管)共同提出。 谢赛宁教授在接受媒体采访时表示: Transformer对Diffusion过程的贡献类似于引擎升级。Transformer的引入......标志着可扩展性和有效性的重大飞跃。这一点在Sora等模型中体现得尤为明显,这些模型得益于对海量视频数据的训练,并利用更高的模型参数来展示Transformer在大规模应用时的变革潜力。 Sora是"大力出奇迹"的产物 根据华福证券的分析,Sora生成视频的过程,大致如下: 视频编码:VisualEncoder将原始视频压缩为低维潜在空间,再将视频分解为时空patches后拉平为系列视频token以供transformer处理。 加噪降噪:在transfomer架构下的扩散模型中,时空patches融合文本条件化,先后经过加噪和去噪,以达到可解码状态。 视频解码:将去噪后的低维潜在表示映射回像素空间。 可以看到,Sora的主要特点就是采用transformer替代了U-Net引擎。分析师施晓俊认为,Sora替换U-Net为DiT的transformer作为模型架构,具有两大优势: 1)Transformer可将输入视频分解为3Dpatch,类似DiT将图片分解为图块,不仅突破了分辨率、尺寸等限制,而且能够同时处理时间和空间多维信息; 2)Transformer延续了OpenAI的ScalingLaw,具有较强的可拓展性,即参数规模越大、训练时长越长、训练数据集越大,生成视频的效果更好。例如,Sora随着训练次数的增加,小狗在雪地里的视频质量显著提升。 然而,Transformer最大的缺点就是——贵。 其全注意力机制的内存需求会随输入序列长度而二次方增长,因此高分辨率图像处理能力不足。在处理视频这样的高维信号时,Transformer的增长模式会让计算成本变得非常高。 换句话说,Sora的诞生,是背靠微软的OpenAI疯狂烧算力的结果。相比于U-Net架构,Transformer突显ScalingLaw下的"暴力美学",即参数规模越大、训练时长越长、训练数据集越大,生成视频的效果更好;此外,在Transformer大规模训练下,逐步显现出规模效应,迸发了模型的涌现能力。 风险提示及免责条款 市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
|
推荐内容
- 国内算力需求的黎明已经到来!
- 2024最佳年度交易:阿根廷!
- 2025年财政展望:转型中的“货币”财政..
- 再添上涨动力?MicroStrategy计划出售更多股份,..
- 今年最大的美股科技股赢家:AppLovin居首,MSTR、..
- 年底前比特币回落,巨额看涨期权今日到期,币安储..
- 全球上线才一周就暴雷?研究称ChatGPT搜索可能欺..
- 第五次全国经济普查结果发布
- 没有降准!明年1月降息呢?
- 日本央行内部分歧剧烈,1月加息仍有可能?..
- 中信证券:小盘股大跌并非因退市新规,而是交易“..
- 一年砸了近300亿:英伟达成为2024年散户最爱..
- 大额净回笼!央行缩量续作MLF,中证报:央行对当..
- 住建部会议在京召开:大力支持刚性和改善型需求,..
- OpenAI被曝自研人形机器人,4年前因缺数据解散团..
热点阅读
- 哪些ETF的“豆包 AI”含量更高?
- Miran被特朗普提名经济顾问委员会主席,支持加强..
- 明年初宽松政策仍有望加码,降准降息值得期待?..
- 奥特曼怒怼马斯克:他就是个“恶霸”,喜欢和对手..
- A股避雷针:“豆包概念股”爆火后,字节跳动发布..
- 飙升70%,创近50年新高!这个品种还要涨?突发:..
- 全球最大稳定币发行商Tether今年赚了100亿美元..
- 推理的崛起+中国的追赶+字节的All In=中国AI行情..
- 媒体再爆:OpenAI的GPT-5训练遇阻,时间延迟且成..
- 今年最强大宗商品:可可、橙汁、咖啡豆..
- 最火爆的“特朗普交易”,开始跌了!..
- 字节定义AI发展新范式:全面平推
- 涨太多!对冲基金开始减仓美国核电股..
- 英美后,马斯克染指德国,发帖“只有极右翼才能救..
- 美联储"Skip”,对市场意味着什么?..