记者刘宗智
在ChatGPT问世一年多后,OpenAI再度“进化”,日前发布首个AI文字生成视频模型Sora。使用者只需通过文字描述场景,Sora就能生成类似电影的逼真场景,涵盖多个角色、不同类型动作和背景细节等,最高能生成1分钟左右的1080P高清视频,引发业界极大的震撼。Sora的出现被看作“人工智能领域的一次重大突破”,显著提高了AI文字生成视频的能力上限,为今后的文明进步带来更多样的可能性。Sora究竟是什么?未来将给影视行业带来哪些变化与挑战?
OpenAI官网 Sora 介绍页
效果媲美“大片”
近日,由Sora生成的一段时长59秒的视频,在社交网络上广为流传。画面中,一位戴墨镜、身穿红裙皮衣、踩着皮靴的女人,漫步在东京街头,镜头流畅地推到了她的脸部,可以清晰地看到她脸上的雀斑和皮肤纹理。这个一镜到底的视频不需要人来拍摄和剪辑,只要把一段文字描述输入Sora后由AI直接生成。此外,OpenAI还公布了其他几段视频,几只巨大的毛茸茸的猛犸象踏着白雪皑皑的草地走近、一个毛茸茸的小怪物跪在融化的红蜡烛旁边……视频质量媲美“大片”,视觉效果也十分逼真。
除了生成的画面高度接近现实物理世界,OpenAI介绍,Sora可以实现视频中的主题始终保持一致,即使暂时离开视野也不会发生变化,并可以一次性生成多机位视频,还可以依靠对语言的深入理解准确地解释提示词,保留角色和视觉风格。有网友感慨,“它将把视频内容带入‘零基础创作’时代”。
电影学者李超在接受齐鲁晚报采访时,向记者展示了一段由AI提炼的相关背景介绍:Sora模型的核心是扩散模型,它从“随机噪声”开始,经过上百个细致的处理阶段,最终演化成为一个连贯且生动的视频场景。此外,Sora还结合了语言理解和视觉生成技术,能够创建复杂的场景和角色。“Sora实际上是物理世界通用模拟器。”李超进一步解释说。
不少科技从业人员也从不同角度对Sora进行点评。马斯克在社交平台上踊跃发言,“人类愿赌服输”“人类借助AI之力将创造出卓越作品”;AI文生视频创企Runway联合创始人克里斯托瓦尔·巴伦苏埃拉感慨后浪拍前浪,以前需要花费一年的进展,变成了几个月就能实现,又变成了几天、几小时;出门问问创始人李志飞在朋友圈感叹:“LLM(大型语言模型)ChatGPT是虚拟思维世界的模拟器,以LLM为基础的视频生成模型Sora是物理世界的模拟器,物理和虚拟世界都被建模和模拟了,到底什么是现实?”
360创始人、董事长周鸿祎近日则公开表示,这意味着AGI(人工通用智能)实现将从10年缩短到1年。他预言Sora“可能给广告业、电影预告片、短视频行业带来巨大的颠覆”,并且认为OpenAI“手里的武器并没有全拿出来”“AGI不是10年、20年的问题,可能一两年很快就可以实现”。
Sora将会替代谁
Sora的出现也为影视行业的发展,带来了更为广阔的想象空间。有业内人士认为,未来一些不需要特别复杂情节的视频,能够借助Sora完成。Sora会像当年的智能手机一样,降低内容创作者门槛,从而使内容供给更加丰富。
在李超看来,以Sora为首的人工智能文字生成视频模型,将会带来三方面的变化。一是影视行业本身,二是拓展到社会,三是将会给人类的科技文明带来极大提升。“在影视创作中,但凡涉及想象类的,都需要构建世界观,比如里面的重力磁场、能量交换模式等。传统模式下,需要依靠人类对物理世界规则的理解,而Sora已经掌握了人类所有的知识,它会比人更具系统性和全面性。那么在此前提下,Sora模拟的场景在物理规则方面会更加完整。Sora作为物理世界的通用模拟器,今后很有可能会应用于社会场景。在由人工智能构建的虚拟世界中,我们会有完善的社会系统、社会身份、个人资产,还会有能源交换行为和情感交换行为。科技层面,以往不便于研究的微观和宏观世界也可以在其中进行模拟、实验。”
技术浪潮下的影视产业,重塑与变革必然势不可当。不过,面对新事物的产生,人们不免喜忧参半。不少网友担忧地表示,未来导演、摄像、化妆、道具、剪辑、配音等一大批从业人员或将失业。对此,李超认为,Sora将会代替大部分基础性、重复性的工作,很可能会出现两种分化,一种是擅长使用AI工具的人,一种是创新性人才,“越是创意维度高的工作,替代性越低”,视频作品的创意性、故事性、艺术性,将在更加海量的作品竞争中标准越来越高。
最大短板是“灵韵”
1分钟的视频并不长,但对于AI文字生成视频可以算是巨大飞跃。过去一年多,ChatGPT、Midjourney等现象级爆款应用横空出世,AI生成文字、生成图片技术的飞速发展让人兴奋,相比之下,AI生成视频领域虽有Runway、Pika、Meta、谷歌等多个明星公司入局,但因技术难度更大,发展仍处于早期,每次生成的视频只能达到十多秒的时长。而Sora将视频长度拉长到了60秒,这一突破意味着,由其生成的视频信息承载力更强,内容更丰富,达到了很多短视频平台的内容发布要求。Sora在细节处理、语言理解、视频扩展等方面的表现令人耳目一新,这也是它与其他AI生成视频模型能够拉开差距的重要原因。
视频样本质量逐步提高
Sora虽然能力惊人,但水平还不够“封神”。OpenAI称,它可能难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系的具体实例。此外,该模型还可能混淆提示的空间细节,例如混淆左右,并且可能难以精确描述随着时间推移发生的事件,例如遵循特定的相机轨迹。
短时期内Sora或许存在一定的硬性技术问题,但当这些问题被很好地解决以后,Sora就与艺术家们创作的影视作品完全相同了吗?本雅明在《机械复制时代的艺术作品》一书中提出了“灵韵”的概念,在他看来,灵韵是事物为彰显自身的独特性而散发的一种微妙的气质,艺术一方面宣称自身的独一无二,另一方面又与日常生活和普通事物保持一定的距离感。Sora能对影视场景进行大众化生产,但与“真人创作的影视作品”相比,缺失了独特性和距离感,这就导致了灵韵的消逝。
由此看来,即使技术升级的Sora能创作所谓的长篇影视作品,但这些作品和“真人创作的作品”最大的区别也是最后的区隔就在于灵韵的有无,Sora可以带来绚丽的画面、逼真的场景,可以“整合”经典电影场景,但可能永远无法为我们带来一个演员面对戏剧冲突时真人的“应激”表演。“真人”创造出的艺术作品是具有灵韵的,能让我们无比期待,Sora能做到吗?