59秒视频质量媲美“大片”，颠覆影视行业？Sora能吗_

记者刘宗智

在ChatGPT问世一年多后，OpenAI再度“进化”，日前发布首个AI文字生成视频模型Sora。使用者只需通过文字描述场景，Sora就能生成类似电影的逼真场景，涵盖多个角色、不同类型动作和背景细节等，最高能生成1分钟左右的1080P高清视频，引发业界极大的震撼。Sora的出现被看作“人工智能领域的一次重大突破”，显著提高了AI文字生成视频的能力上限，为今后的文明进步带来更多样的可能性。Sora究竟是什么？未来将给影视行业带来哪些变化与挑战？

OpenAI官网 Sora 介绍页

效果媲美“大片”

近日，由Sora生成的一段时长59秒的视频，在社交网络上广为流传。画面中，一位戴墨镜、身穿红裙皮衣、踩着皮靴的女人，漫步在东京街头，镜头流畅地推到了她的脸部，可以清晰地看到她脸上的雀斑和皮肤纹理。这个一镜到底的视频不需要人来拍摄和剪辑，只要把一段文字描述输入Sora后由AI直接生成。此外，OpenAI还公布了其他几段视频，几只巨大的毛茸茸的猛犸象踏着白雪皑皑的草地走近、一个毛茸茸的小怪物跪在融化的红蜡烛旁边……视频质量媲美“大片”，视觉效果也十分逼真。

除了生成的画面高度接近现实物理世界，OpenAI介绍，Sora可以实现视频中的主题始终保持一致，即使暂时离开视野也不会发生变化，并可以一次性生成多机位视频，还可以依靠对语言的深入理解准确地解释提示词，保留角色和视觉风格。有网友感慨，“它将把视频内容带入‘零基础创作’时代”。

电影学者李超在接受齐鲁晚报采访时，向记者展示了一段由AI提炼的相关背景介绍:Sora模型的核心是扩散模型，它从“随机噪声”开始，经过上百个细致的处理阶段，最终演化成为一个连贯且生动的视频场景。此外，Sora还结合了语言理解和视觉生成技术，能够创建复杂的场景和角色。“Sora实际上是物理世界通用模拟器。”李超进一步解释说。

不少科技从业人员也从不同角度对Sora进行点评。马斯克在社交平台上踊跃发言，“人类愿赌服输”“人类借助AI之力将创造出卓越作品”；AI文生视频创企Runway联合创始人克里斯托瓦尔·巴伦苏埃拉感慨后浪拍前浪，以前需要花费一年的进展，变成了几个月就能实现，又变成了几天、几小时；出门问问创始人李志飞在朋友圈感叹:“LLM(大型语言模型)ChatGPT是虚拟思维世界的模拟器，以LLM为基础的视频生成模型Sora是物理世界的模拟器，物理和虚拟世界都被建模和模拟了，到底什么是现实？”

360创始人、董事长周鸿祎近日则公开表示，这意味着AGI(人工通用智能)实现将从10年缩短到1年。他预言Sora“可能给广告业、电影预告片、短视频行业带来巨大的颠覆”，并且认为OpenAI“手里的武器并没有全拿出来”“AGI不是10年、20年的问题，可能一两年很快就可以实现”。

Sora将会替代谁

Sora的出现也为影视行业的发展，带来了更为广阔的想象空间。有业内人士认为，未来一些不需要特别复杂情节的视频，能够借助Sora完成。Sora会像当年的智能手机一样，降低内容创作者门槛，从而使内容供给更加丰富。

在李超看来，以Sora为首的人工智能文字生成视频模型，将会带来三方面的变化。一是影视行业本身，二是拓展到社会，三是将会给人类的科技文明带来极大提升。“在影视创作中，但凡涉及想象类的，都需要构建世界观，比如里面的重力磁场、能量交换模式等。传统模式下，需要依靠人类对物理世界规则的理解，而Sora已经掌握了人类所有的知识，它会比人更具系统性和全面性。那么在此前提下，Sora模拟的场景在物理规则方面会更加完整。Sora作为物理世界的通用模拟器，今后很有可能会应用于社会场景。在由人工智能构建的虚拟世界中，我们会有完善的社会系统、社会身份、个人资产，还会有能源交换行为和情感交换行为。科技层面，以往不便于研究的微观和宏观世界也可以在其中进行模拟、实验。”

技术浪潮下的影视产业，重塑与变革必然势不可当。不过，面对新事物的产生，人们不免喜忧参半。不少网友担忧地表示，未来导演、摄像、化妆、道具、剪辑、配音等一大批从业人员或将失业。对此，李超认为，Sora将会代替大部分基础性、重复性的工作，很可能会出现两种分化，一种是擅长使用AI工具的人，一种是创新性人才，“越是创意维度高的工作，替代性越低”，视频作品的创意性、故事性、艺术性，将在更加海量的作品竞争中标准越来越高。

最大短板是“灵韵”

1分钟的视频并不长，但对于AI文字生成视频可以算是巨大飞跃。过去一年多，ChatGPT、Midjourney等现象级爆款应用横空出世，AI生成文字、生成图片技术的飞速发展让人兴奋，相比之下，AI生成视频领域虽有Runway、Pika、Meta、谷歌等多个明星公司入局，但因技术难度更大，发展仍处于早期，每次生成的视频只能达到十多秒的时长。而Sora将视频长度拉长到了60秒，这一突破意味着，由其生成的视频信息承载力更强，内容更丰富，达到了很多短视频平台的内容发布要求。Sora在细节处理、语言理解、视频扩展等方面的表现令人耳目一新，这也是它与其他AI生成视频模型能够拉开差距的重要原因。

视频样本质量逐步提高

Sora虽然能力惊人，但水平还不够“封神”。OpenAI称，它可能难以准确模拟复杂场景的物理原理，并且可能无法理解因果关系的具体实例。此外，该模型还可能混淆提示的空间细节，例如混淆左右，并且可能难以精确描述随着时间推移发生的事件，例如遵循特定的相机轨迹。

短时期内Sora或许存在一定的硬性技术问题，但当这些问题被很好地解决以后，Sora就与艺术家们创作的影视作品完全相同了吗？本雅明在《机械复制时代的艺术作品》一书中提出了“灵韵”的概念，在他看来，灵韵是事物为彰显自身的独特性而散发的一种微妙的气质，艺术一方面宣称自身的独一无二，另一方面又与日常生活和普通事物保持一定的距离感。Sora能对影视场景进行大众化生产，但与“真人创作的影视作品”相比，缺失了独特性和距离感，这就导致了灵韵的消逝。

由此看来，即使技术升级的Sora能创作所谓的长篇影视作品，但这些作品和“真人创作的作品”最大的区别也是最后的区隔就在于灵韵的有无，Sora可以带来绚丽的画面、逼真的场景，可以“整合”经典电影场景，但可能永远无法为我们带来一个演员面对戏剧冲突时真人的“应激”表演。“真人”创造出的艺术作品是具有灵韵的，能让我们无比期待，Sora能做到吗？