近日,Meta发布Movie Gen,称其为“最先进的媒体基础模型”。据悉,Movie Gen可生成1080P、16秒、每秒16帧的高清长视频,其不但可以通过文本输入生成视频,还可以通过文本对现有视频进行编辑修改,据称逼真程度超越Sora,Movie Gen预计明年正式向公众开放。
Movie Gen生成的视频
如今几乎所有新推出的文生视频产品都会与年初亮相的Sora对比,将之视为最强大的竞争者。不过,Sora一鸣惊人后却迟迟未上线,被外界调侃为“期货”,那么“视频ChatGPT时代”究竟何时来临?
OpenAI的内忧外患
距离首次亮相已超过半年,Sora为何迟迟未能正式上线?
Logenic AI联合创始人李博杰向《IT时报》记者表示,Sora未能如期发布的主要原因可能与其所需的算力资源密切相关。Sora模型本身需要占用大量计算资源,生成一分钟视频的时间高达约半小时,且并非单台设备完成,而是需要多台并行运行,这
;96t0k-kt9ogpotot\/.t/t/T/FTddddddddft t分钟视频的成本可能超过100美元。
李博杰指出,如果普通用户生成一分钟视频要花费100美元,那么如此高的成本对于消费级市场来说显然难以接受。因此,Sora尚未能大规模推广。相比之下,一些国内公司选择了较小规模的模型,虽然生成效果不如Sora,但在当前算力有限的情况下更加实用,能让用户立即上手。
Sora如何降低成本?可能需要依赖模型蒸馏这一技术。
模型蒸馏是指通过使用大型、强大的模型(如GPT-4o或o1-preview)的输出,来微调更小、更具成本效益的模型(如GPT-4o mini),以在特定任务上接近高级模型的性能,但成本大幅度降低。
如GPT-4o mini,通过模型蒸馏技术将成本降低了30倍,“理论上Sora也可以采取这种方法,将模型能力稍微削弱,但成本却能大幅下降。”李博杰同时指出,这一过程需要大量资源投入,而资源恰恰是当前OpenAI内部面临的一个重要问题。
近日,《The Information》报道称,OpenAI因不满微软无法快速提供足够的服务器,开始与Oracle洽谈,以建立全球最强的AI数据中心。OpenAI首席财务官Sarah Friar此前表示,由于微软提供的算力不够,OpenAI不得不寻找其他数据中心合作。
另一方面,尽管OpenAI拥有比大多数公司更多的GPU资源,但团队规模庞大,内部的资源争夺和职场斗争不断。OpenAI内部约有3000名员工,不少团队需要抢占资源,高管的频繁离职也与此有关。
OpenAI部分团队专注于商业化,需要快速推向市场,因此占用了大量GPU资源。尤其是GPT-4的免费开放,更加剧了资源消耗。此外,OpenAI还在不断训练新模型,如o1推理模型、Sora的最新版本、GPT-4.5以及即将推出的GPT-5,进一步加重了计算资源的负担。
当地时间10月4日,OpenAI的文生视频大模型Sora团队研发负责人Tim Brooks宣布离职,加入谷歌 DeepMind。在此之前,9月26日,OpenAI高层也经历了重大变动,多位高管相继离职,创始团队成员仅剩三人。
此外,在美国,生成式AI引起的版权争议正愈演愈烈。此前,超过4700名艺术家发起集体诉讼,指控Stability AI、Midjourney和其他AI相关公司非法使用版权作品用于训练AI。相比文本生成,图片、视频和语音的版权风险更大,视频生成面临更多的版权问题。
内忧外患之中,Sora终成“期货”。
国产文生视频百花齐放
对于广大使用者而言,Sora从“理想”到“现实”的进展缓慢无疑令人失望与焦虑。Sora首次亮相时,业内的讨论还聚焦于中美AI技术的差距。如今,短短半年后,国内AI创作领域已然“百花齐放”。相比之下,Meta的入局已经显得慢了半拍,中国企业迫不及待地开始布局视频生成技术。
今年3月底,字节跳动旗下的剪映团队推出AI创作平台“即梦AI”并开放内测。8月6日,移动版应用正式上线苹果商店,具备文生图、文生视频和图生视频等功能。