2024-10-21

近日，Meta发布Movie Gen，称其为“最先进的媒体基础模型”。据悉，Movie Gen可生成1080P、16秒、每秒16帧的高清长视频，其不但可以通过文本输入生成视频，还可以通过文本对现有视频进行编辑修改，据称逼真程度超越Sora，Movie Gen预计明年正式向公众开放。

Movie Gen生成的视频

如今几乎所有新推出的文生视频产品都会与年初亮相的Sora对比，将之视为最强大的竞争者。不过，Sora一鸣惊人后却迟迟未上线，被外界调侃为“期货”，那么“视频ChatGPT时代”究竟何时来临？

OpenAI的内忧外患

距离首次亮相已超过半年，Sora为何迟迟未能正式上线？

Logenic AI联合创始人李博杰向《IT时报》记者表示，Sora未能如期发布的主要原因可能与其所需的算力资源密切相关。Sora模型本身需要占用大量计算资源，生成一分钟视频的时间高达约半小时，且并非单台设备完成，而是需要多台并行运行，这

;96t0k-kt9ogpotot\/.t/t/T/FTddddddddft t分钟视频的成本可能超过100美元。

李博杰指出，如果普通用户生成一分钟视频要花费100美元，那么如此高的成本对于消费级市场来说显然难以接受。因此，Sora尚未能大规模推广。相比之下，一些国内公司选择了较小规模的模型，虽然生成效果不如Sora，但在当前算力有限的情况下更加实用，能让用户立即上手。

Sora如何降低成本？可能需要依赖模型蒸馏这一技术。

模型蒸馏是指通过使用大型、强大的模型(如GPT-4o或o1-preview)的输出，来微调更小、更具成本效益的模型(如GPT-4o mini)，以在特定任务上接近高级模型的性能，但成本大幅度降低。

如GPT-4o mini，通过模型蒸馏技术将成本降低了30倍，“理论上Sora也可以采取这种方法，将模型能力稍微削弱，但成本却能大幅下降。”李博杰同时指出，这一过程需要大量资源投入，而资源恰恰是当前OpenAI内部面临的一个重要问题。

近日，《The Information》报道称，OpenAI因不满微软无法快速提供足够的服务器，开始与Oracle洽谈，以建立全球最强的AI数据中心。OpenAI首席财务官Sarah Friar此前表示，由于微软提供的算力不够，OpenAI不得不寻找其他数据中心合作。

另一方面，尽管OpenAI拥有比大多数公司更多的GPU资源，但团队规模庞大，内部的资源争夺和职场斗争不断。OpenAI内部约有3000名员工，不少团队需要抢占资源，高管的频繁离职也与此有关。

OpenAI部分团队专注于商业化，需要快速推向市场，因此占用了大量GPU资源。尤其是GPT-4的免费开放，更加剧了资源消耗。此外，OpenAI还在不断训练新模型，如o1推理模型、Sora的最新版本、GPT-4.5以及即将推出的GPT-5，进一步加重了计算资源的负担。

当地时间10月4日，OpenAI的文生视频大模型Sora团队研发负责人Tim Brooks宣布离职，加入谷歌 DeepMind。在此之前，9月26日，OpenAI高层也经历了重大变动，多位高管相继离职，创始团队成员仅剩三人。

此外，在美国，生成式AI引起的版权争议正愈演愈烈。此前，超过4700名艺术家发起集体诉讼，指控Stability AI、Midjourney和其他AI相关公司非法使用版权作品用于训练AI。相比文本生成，图片、视频和语音的版权风险更大，视频生成面临更多的版权问题。

内忧外患之中，Sora终成“期货”。

国产文生视频百花齐放

对于广大使用者而言，Sora从“理想”到“现实”的进展缓慢无疑令人失望与焦虑。Sora首次亮相时，业内的讨论还聚焦于中美AI技术的差距。如今，短短半年后，国内AI创作领域已然“百花齐放”。相比之下，Meta的入局已经显得慢了半拍，中国企业迫不及待地开始布局视频生成技术。

今年3月底，字节跳动旗下的剪映团队推出AI创作平台“即梦AI”并开放内测。8月6日，移动版应用正式上线苹果商店，具备文生图、文生视频和图生视频等功能。