OpenAI文字生成视频大模型Sora根据提示词“纽约兰蒂斯样被淹没。鲸鱼海龟鲨鱼纽约街道弋”生成的20秒视频视频

(1/1)

Sora不仅可以理解用户的需求,还知这些现实世界如何存在

视频生成需要处理预测长时间跨度内的动作场景变化,增加了模型复杂

■Sora的角色更多是赋能创作者,而不是替代他们提供实现创意愿景的途径

本报记者查睿

春节期间,大洋彼岸又放出大招——美国人工智能团队OpenAI发布文字生成视频大模型Sora,别是官方公布的长达60秒未经修改的AI频,引发业界极大的震撼,友惊呼“现实不存在了”。

发布短短96个小时内,国内已有AI团队紧急上线相关“文字生成频”大模,但与国外主流AI视频模型能力相仿,均无超越Sora的平。

“Sora能力超乎预期,但仍未达到颠覆行业的水平。”专家指出,AI生成视频技术仍有门槛,国内企业弯道超车临不小的难度。

碾压同

2月16日,谷歌发布新一代多模态大模型Gemini 1.5 Pro,在性能超越OpenAI的GPT-4 Turbo,堪称业界最强大模型。然而,OpenAI在同一日发布Sora大模型,风头接盖过谷歌,仅需文本即可自动生成视频,这也是继本模型ChatGPT图片模型Dall-E之后,又一极具颠覆性的大模型产品

Sora并非首个文本生成视频的大模型。据不完全统计,截至去年年底,全球能实现文本生成视频的大模型包括RunwayPikaStable Video Diffusion等20多个产品。Sora的诞生仍给业界来不小的震撼,它所现出来的能力几乎可“碾压”来形容。

用户仅需输入简短一句话,Sora就可生成一段长达60秒的视频,远远超过上同类型级别的AI视频生成时长。在此之前,AI视频模型生成时长几乎在10秒以内,而“明星模型”Runway和Pika等也仅有3到4秒。

60秒的视频时长,已超过抖音等短视频平台的平均视频时长,Sora的诞生也以后短视频平台内容生产提供更大的可能性。

Sora保证视频时长的同时,也加强了视频质量稳定性。记者体验此前的AI生成视频时发现,即便是几秒钟的视频也并不连贯,有较强的拼凑感。而Sora几乎能做到60秒视频一镜到底,OpenAI的演示视频显示,一名时尚女性走过喧闹繁东京街头,无论是建筑街道以及像的逼真程度,都保持一致性,哪怕是各种镜头的蒙太,都没有出现明显的失真情况。

OpenAI在官方博客,Sora不仅可以理解用户的需求,还知道这些事在现实世界如何存在。这离不开OpenAI在文本和图像方面的长期积累

上海市人工智能行业协会秘书长钟俊浩解释,Sora的训练依赖于大量有文本标题的视频数据。OpenAI利用Dall-E 3中的标题生成技术,为视频生成高质量的文本标题,以此提文本和视频数据之间的对齐度。在大规模训练过程中,Sora展示了一些“涌现的模拟能力”,如维一致性、长距离连贯性物体持久性以及与世界互动的能力等。这些能力表明Sora能够在一定程度上模拟物理世界数字世界人物动物环境

哔哩哔哩科技Up主“Git源宝”的话来说,OpenAI先拆解大量的视频素材,并将文字与视频做匹配对应,之后又密集训练,使Sora拥有自主生成视频的能力。

挑战不少

虽然技术令惊艳,但Sora的视频生成能力并不完。已披露的视频显示,不少素材仍“一眼假”,不符合物理规律等AI生成的Bug(漏洞)不少。

以“幼狼玩耍”视频为例,Sora生成的内容中出现漏洞:在嬉戏打闹中,幼狼的量从3只到5只来回变换,虽然动作连贯,但戏法般的效果让人摸不到头脑。另外在“一个老人吹蜡烛”的指令下,Sora生成的视频却显示,老人对着生日蛋糕的蜡烛吹气,却没有一根蜡烛熄灭;在呈现“红酒杯在桌上摔碎”的镜头中,杯子摔碎前,红酒已洒满桌子,“先摔碎后洒酒”的逻辑,Sora也没有理解。

或许是考虑到性能、安全等问题,Sora并未向公众开放,目前处于安全测试阶段。据外媒预测,GPT-4经过6个月的测试后正式向公众开放,预计Sora将于8月向公众开放。

在钟俊浩眼中,Sora面临的技术挑战仍不少,特别是与文本对话图片生成相比,训练成本昂、高质量数据集的缺乏以及视频描述的模糊性都将是Sora需要跨越的门槛。

“视频生成需要处理和预测长时间跨度内的动作和变化,这增加了模型的复杂度和训练的计算需求。”他认为,与文本和图像相比,适用于视频生成的多模态质量数据集相对较少,这限制了模型学习复杂动作语义的能力,不仅如此,描述视频内容比描述静态像复杂,因为它需要包括时间上的变化、动作以及可能的情感故事线索。

值得一提的是,在Sora发布的同时,OpenAI宣布一项要约售交易,由此OpenAI整体估值高达800亿美元,一年内飙升两倍多。根据调研公司CB Insights统计,OpenAI已成为全球估值最高的创业公司之一,仅次于字节跳动SpaceX

难言颠覆

Sora的横空出世引爆学界、业界和投资界的讨论热度。

短短4内,中信建投国泰君安申万宏源招商证券等10家券商报中均表示,Sora是人工智能发展进程中的里程碑,预示AGI(人工通用智能)将加速到来,众多行业将迎来颠覆式变革。

天风证券认为,内容创作工作流有望被颠覆,下一个亿级用户的互联网平台雏形出现。2000亿美元的短视频创作生态有望率先被颠覆,生成式AI在视频作和世界模型的大踏步进步将实现对视频、3D游戏等下应用场景的渗透。

中信证券投资角度判断,Sora背后的涌现能力为自动驾驶设计等需要现实世界建模的行业提了明确方向硬件的需求必然随着多模态的技术进步不断提高,因此AI算力持续看好。

“Sora让人震惊,很大原因是AI的发展速度远超预期。但不意味着短时间能形成生产力。”钟俊浩认为,Sora现在能力还不足以颠覆行业,特别是影视行业和游戏行业高度依赖创意情感投入人类故事讲述的领域。AI视频生成技术可以提帮助,比如降低制作成本、加速内容生成,甚至在某些情下提供意灵感,但目前还不能完全替代人类在创作过程中的独特视角和情感深度。“Sora的角色更多是赋能创作者,而不是替代他们提供实现创意愿景的新途径。”

根据观察,Sora的文本到视频生成技术难以进行精细的局部调整。如果用户希望修改视频中的某个具体细节,可能需要进行复杂的编辑,不仅工作量大,而且也要求用户具备一定的视频编辑技能。同时,Sora每次生成的视频内容有较大变化,难以保持一致的叙事风格或视觉风格。“即便是60秒超长视频,也无法满足大部分影视作品需求,将多个短视频片段拼接起来,在转协调连贯性上也是额外挑战。”钟俊浩说。

游戏开始

Sora出即“王炸”,AI生成视频创业公司无疑将面临巨大压力。Runway CEO瓦伦祖拉在社交媒体写道“Game On(游戏开始了)”,Stability CEO莫斯塔克由衷夸赞“奥特曼(OpenAI CEO)真是个魔术师”。而由华人郭文景创立的Pika Labs也感受到巨大冲击力,去年11月发布Pika,能够生成和编辑3D动画动漫、卡通和电影,是一款零门槛的视频生成,她向媒体透露,团队如今正准备招人,接对标Sora。

今年1月,字节跳动也发布了MagicVideo-V2文生视频模型,通过文生图大模型先生成一张符合当前输入文本的图片,然后使用图片与文本描述利用图生成视频模型生成简单的视频,并使用视频到视频模型,对当前的视频进行超分辨率技术合成,让视频更清晰细腻。

前几日,阿里云旗下魔搭社区ModelScope)上线文本生成视频大模型。记者阿里方面了解到,这是第三方创作者上传的作品,目前由文本特征提取、文本特征到视频隐空间扩散模型、视频隐空间到视频视觉空间这3个子网络组成,整体模型参数约17亿,仅支持文输入。文本生成视频大模型已面向公众开放,与Sora类似可直接输入文字即可看到生成的视频效果,目前已公布9个官方案例。比如“A panda eating bamboo on a rock”,将出现2秒钟“大熊猫在石头上竹子”的视频。

不过这一大模型并不成熟,记者以类似的“A panda dancing(跳舞的大熊猫)”为例,生成2秒钟的视频耗时长达32分钟,且输出的视频与“吃竹子的大熊猫”没有太大别。

北京社会学院副研究员王鹏告诉记者,尽管国内大模型近年来取得显著进展,但与OpenAI、谷歌、英伟达国际大公司相比,仍存在技术差距。这些国际大公司在深度学习自然语言处理计算机视觉等领域拥有更深厚的技术积累和研发实力,在AIGC领域具有更强竞争力

“国内业要迎头赶上,需要在技术研发人才培养市场洞察上下功夫,同时还要考虑到国内外市场的差异性和合规性问题。”人工智能行业天使投资人郭涛认为,国内AI企业不妨与成熟技术团队建立战略合作共享技术资源,针对国内市场需求,进行品和应用创新,实现弯道超

上海机会

“现在上有些公司正在进行‘从一张图到另一张图生成中间视频’的大模型产品研发,比如上海人工智能企业孵化器‘AI驿站’中的小冰公司笔墨AI等企业。”钟俊浩说,上海在技术研发人才培养数据资源算力资源等方面与国际大公司存在不小差距。“追上Sora的能力需要时间,这不仅取决于技术投入和研发速度,还需要考虑行业生态的建设。”

他认为,OpenAI目前在竞争力上一骑绝尘,中国要在AI领域追赶,首先依然靠人才鼓励行业高密度聚集,避免人才分散,也避免智能算力等稀缺资源分散。上海应发挥全产业链生态优势,鼓励行业结合,尤其在智能制造机器人等领域,整合不同行业的技术和市场资源。同时,鼓励相关企业研究机构教育机构在特定区域聚集,以促进知识共享、人流动和资源高效利用。通过政策引导和资源配置,集中力量攻克关键技术难题。

上海在大模型领域的发展正迅速推进,目前已成为国内在人工能和大模型发上的重镇。根据《上海市推动人工能大模型创新发展若干措施(20232025年)》,上海将加打造世界级人工智能产业集群,这些措施包括支持大模型的创新能力提升创新要素供给能级、推进大模型的创新应用,以及营造一流的创新环境

目前,徐汇区建立了全国首个以大模型、产业生态集聚发展为功能定位产业生态空间。全国首批备案通过的8个大模型中,上海占席,徐汇区集聚了全国近25%的大模型企业和项目,在全国大模型领域处于领先水平。

 

 

来源解放日报  – 作者:查睿

https://www.jfdaily.com/staticsg/res/html/journal/detail.html?date=2024-02-20&id=367763&page=05