中信证券:OpenAI推出视频生成模型Sora AI产业围绕多模态不断加码

智通财经APP获悉,中信证券(600030)发布研究报告称,近一周内,OpenAI和谷歌分别推出了他们的最新AI模型,围绕视频多模态这个核心关键点双方不断加码。Gemini1.5 Pro基于大语言模型处理视频模态,上下文长度超过百万, Sora在技术上采用了Diffusion Transformer的路线,OpenAI表示Sora在训练过程中表现出了与其他模型不同的涌现能力,有望成为真正的“世界模型”。

从投资角度来看,Sora背后的涌现能力为自动驾驶、设计等需要现实世界建模的行业提供了明确方向。Gemini在短期内的部分商业场景表现可能会更为出色,尤其是需要结合图片与文字的多模态应用场景。除去应用端的投资机会,硬件端的需求也必然会随着多模态的技术进步而不断提高,该行仍然持续看好AI算力,尤其是后续商业端成熟而带来的更多AI推理侧算力的机会。

中信证券主要观点如下:

事件背景:

近一周内,OpenAI和谷歌分别推出了他们的最新AI模型,展现了各自在人工智能技术上的最新进展。2月16日,OpenAI介绍了其首个视频AI模型Sora,这款模型可以根据文本指令生成最长60秒的高质量视频,并能够依据文字提示进行视频内容的调整。与此同时,谷歌也宣布了其新一代多模态模型Gemini Pro 1.5的发布,该模型具有突破性的能力,能够处理达到100万tokens的复杂上下文。

技术进展:围绕视频多模态,谷歌与OpenAI在基础算法领域不断加码。

Google推出的Gemini1.5 Pro就架构而言,引入了能够将神经网络细分为更小“专家”的MoE架构(这也是普遍猜测中GPT-4采用的架构),使其相较传统的Transformer架构更为高效。

就模型能力而言,Gemini 1.5 Pro的最大提升在于支持了100万tokens的Context Window,远超前代的3.2万tokens,意味着模型能够一次性处理更加大量的信息。在演示中,谷歌使用长视频作为例子,Gemini最新版本可以处理长达1个小时的长视频,并理解视频的内容进行回答,展现出了语言模型的极强的多模态处理能力。OpenAI的Sora模型相比Gemini1.5 Pro有所区别,它并不是一个语言模型,而是一个纯粹的视频生成模型,更接近于我们以前所知的Dalle、Stable Diffusion、Midjourney等模型。Sora在底层上采用了与文生图模型相同的Diffusion Model(扩散模型)的框架,但采用了Transformer层取代了传统的Unet层。

具体而言,Sora首先对视觉数据建模,将视频压缩到低位的潜变量空间(Latent Network),然后将其拆解为一个个碎片(Patches)。在引入了Transformer的多头注意力层后,模型将每一个Patch当做语言模型中的文字Token处理,帮助模型学习海量视频中不同碎片间的动态关联。因此我们看到OpenAI将其模型成为Diffusion Transformer,融合了当期最热门的语言模型与文生图模型,并且在成果上我们看到了Sora相比于其他视频生成模型更多的灵活性,以及对物理世界的理解能力。

后续影响:Sora的推出带来了更大的市场影响力,涌现能力为“世界模型”的诞生提供了基础。

Gemini1.5 Pro提供了相当惊艳的大语言模型处理视频模态的综合能力,但相较之下市场把更多关注度给到了Sora,这是因为Gemini的升级本质上是对过去模型的继续迭代优化,而Sora的出现给计算机视觉领域可能提供了一条崭新而明确的道路。在技术上Sora采用了Diffusion Transformer的路线,OpenAI表示Sora在训练过程中表现出了与其他模型不同的涌现能力,通过涌现学习到了物品的时间与空间相关性以及与周围世界的互动能力等等。得益于这种基于规模的涌现能力,如果后续持续扩大模型以及训练集的规模,那么将来以Sora为基础的模型可能做到模拟整个物理和数字世界,成为真正的“世界模型”。长期以来,计算机视觉领域的研究一直过于碎片化,直到目前实际用例中的计算机视觉模型仍根据不同任务采取不同的小模型。而Sora的成功以及其背后展现出的涌现能力可能为计算机视觉领域的研究提供了一个明确的方向,成为未来视频与模拟领域(例如自动驾驶)的统一范式。

商业推演:Sora模型受制于能力与成本实用性较低,Gemini短期商业化潜力较大。

尽管Sora相较于Gemini引起了更大的轰动,其本身也是技术上的进一步创新,但我们也无法忽视Sora目前存在的多种局限性。首先在能力上Sora距离可实用还有较大距离,OpenAI明确表示Sora虽然能理解部分因果关系与物理现象,但难以在较长视频中准确模拟复杂场景中的物理现象、可能无法理解具体的因果关系、可能混淆提示的空间细节以及可能难以准确描述随时间变化的事件。这与我们观察到的Sora Demo的表现也较为一致,在视频时长拉长到10秒以上时,Sora经常会出现在物理定律以及交互过程中的小错误。其次成本是Sora无法忽视的问题,Sora采用的Latent空间压缩,我们进行简单估算:对于一个60帧的视频(约6-8秒),其需要约6万个Patches,如果去噪步数是20的话,相当于要生成120万个Tokens,这是相当大的计算量。同时考虑到扩散模型在实际使用时往往需要多次生成的特点,实际计算量会远超刚刚计算的120万个Tokens。相较之下,Gemini是在原有模型上的继续迭代,其最大特点是加长了context window与多模态能力,这些都是短期内更为实用的更新,在成本可控的条件下,我们更看好Gemini在短期的商业表现。

风险因素:

AI核心技术发展不及预期风险;科技领域政策监管持续收紧风险;私有数据相关的政策监管风险;全球宏观经济复苏不及预期风险;宏观经济波动导致欧美企业IT支出不及预期风险;AI潜在伦理、道德、用户隐私风险;企业数据泄露、信息安全风险;行业竞争持续加剧风险等。

投资策略:

本次谷歌与OpenAI两家公司的模型更新仍然是围绕底层算法层面,尤其是模型的视频多模态方面进行展开,我们维持多模态与成本降低将是今年AI算法发展最核心的两个主线的判断。从技术角度,Sora所展现出来的框架能力更为惊艳,背后的涌现能力为自动驾驶、设计等需要现实世界建模的行业提供了明确方向,但其技术成熟度还处在早期阶段,同时成本开销过于巨大。相较而言,Gemini在短期内的部分商业场景表现可能会更为出色,尤其是需要结合图片与文字的多模态应用场景。除去应用端的投资机会,硬件端的需求也必然会随着多模态的技术进步而不断提高,我们仍然持续看好AI算力层面,尤其是得益于商业端成熟而带来的更多的AI推理侧算力的机会。

添加回复:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。