视频ChatGPT时代”来了？Sora是否依然具备强大的竞争优势

2024-10-21

6月13日，美图发布了基于大模型的短片创作平台MOKI，创作者只需经过简单设定，即可生成动画短片、网文短剧、故事绘本和MV等多种内容，极大降低了创作门槛。

6月21日，快手推出旗下的“可灵”图生视频功能，7月24日，基础模型升级，显著提升了画面质量与运动表现。

大模型领域的初创公司同样不甘落后。爱诗科技推出了AI视频生成产品PixVerse，生数科技4月发布了视频生成模型Vidu，智谱AI7月26日上线清影（Ying），MiniMax则于9月2日推出abab-video-1，其高压缩率、优良的文本响应能力以及多样化风格，能够生成媲美电影质感的高分辨率、高帧率视频。

据德邦证券统计，自Sora首次亮相以来，全球已有十多家公司发布或更新了视频生成模型。

作为自2023年2月起就开始体验各种视频创作工具的资深用户，俞国汉见证了AI视频创作领域快速变化。

“最开始要将视频的每一帧都用图像生成模型Stable-Diffusion进行图生图处理，然后再连成视频。”俞国汉回忆道。这种方法虽然能够生成具有创意效果的视频，但每一帧图生图之间存在差别，导致最终的视频效果总是闪烁不定，严重影响了观看体验。

此后，字节跳动的Animatediff模型出现，凭借免费、本地使用且可操作性强的优点，迅速获得了技术爱好者们的青睐，成为视频转视频的主流工具。与此同时，市场上也涌现出了一些高质量的图生视频工具，如Runway Gen2因其出色的画质和高分辨率，一度受到短剧领域的青睐。

2024年初Sora的面世给视频创作领域带来一波新浪潮。“那时候大家对Sora既充满期待又感到不安，觉得之前花时间研究的视频技术都变得不再重要了。”俞国汉回忆道。

直到2024年6月，快手“可灵”正式发布，让俞国汉在内的创作者们直呼“原来真的有那么好的文生视频工具”。可灵不仅提升了文生视频的表现，还证明了高质量文生视频的可能性。此后，市场上涌现出了多种文生视频工具，如Vidu、Runway、Luma、海螺AI等，每款工具都各有特色。

俞国汉向《IT时报》记者详细介绍了自己体验这些文生视频工具的直观感受，比如海螺AI以其优秀的动画、镜头运用和人物情感表达而著称；Vidu在语义理解、特效2D动画、一致性等表现出色；Runway则以其较高的分辨率、优秀的画面质感成为广告行业的理想选择；而可灵则因其平衡的性能而被视为多面手。

商业化“道阻且长”

俞国汉指出，目前使用AI视频制作对于个人用户而言成本仍然较高，但对于企业来说，这种成本是可以接受的，商用AI视频制作中，画面一致性、分辨率和语义理解能力是决定视频质量的关键因素。

尽管文生视频技术为创意工作开辟了新的空间，但其现有的局限性使得它在商业应用中的价值远不及图生视频。目前来看，文生视频大多时候更像是爱好者的“玩具”，难以满足商业需求。因为在短剧制作中，需要确保人物形象和其他元素的一致性，而文生视频往往只能生成几秒钟的内容，且下一秒的内容可能会发生变化，这显然无法满足专业制作的要求。

李博杰也指出，在技术层面，文生视频面临的关键挑战之一是风格一致性的问题。例如，在生成一个10秒的视频时，人物形象是否保持一致，是否会出现前后视频中人物外貌不符的情况。此外，视频中的物理规律是否符合常识也是一个难点。

“Sora的关键作用在于它为行业指明了方向。如果它能够降低成本并进入市场，其他公司将会纷纷跟进，投入资源进行开发。”李博杰表示，尽管目前Sora的效果未达最佳，但如果它开源视频生成模型，将带来一场颠覆性的行业变革。

事实上，当前市面上缺乏先进开源的视频生成模型。大多数头部公司如Meta和Sora都选择了闭源。虽然Meta近期发布了一份92页的技术报告，详细阐述了技术细节，开放程度已超出其他公司，但模型本身仍未开源。若未来这些模型能实现开源，将极大推动视频生成行业的发展。

尽管如此，李博杰认为，Sora未来能够在市场上推出，依然具备强大的竞争优势，“OpenAI在数据和算力上的显著优势让其在市场中独树一帜，其他公司既没有那么多的GPU资源，也缺乏同等规模的高质量数据”。

页码:上一页

视频ChatGPT时代”来了？Sora是否依然具备强大的竞争优势

商业化“道阻且长”

最新文章