出道即王炸!OpenAI首个文生视频模型Sora特别在哪?
2月16日,
OpenAI再次扔出一枚深水炸弹,
发布了文生视频模型Sora。
Sora完美继承DALL·E 3的画质
和遵循指令能力,
能生成长达1分钟的高清视频。
整理/段大卫
可以说,Sora出道即王炸,它能够根据用户的一句话生成长达一分钟的视频,且视频流畅度和稳定性皆在水准之上。
目前官网上已经更新了48个视频demo,在这些demo中,Sora不仅能准确呈现细节,还能理解物体在物理世界中的存在,并生成具有丰富情感的角色。该模型还可以根据提示、静止图像甚至填补现有视频中的缺失帧来生成视频。
Runway Gen 2、Pika等AI视频工具,都还在突破几秒内的连贯性,而OpenAI,已经达到了史诗级的纪录。
对比AI视频里Runway、Pika、Google和Meta这些主流玩家, Sora的特别之处在于:
1.能够生成具有多个角色、特定类型动作和主题背景的复杂视频,时长可达到1分钟。
2.可以在单个生成的视频中创建多个镜头,模拟复杂的摄像机运镜,同时准确地保持角色和视觉风格。
3.最重要的是,它不仅理解用户在提示中要求的内容,还能自己理解这些事物在现实世界中的存在方式。
视频画面如现实
OpenAI发布了多个Sora生成的视频,大家可以感受一下。或许已经很难再分清,AI和现实的界限了。
有人提出想要“一段海上自行车比赛的视频,让各种动物作为运动员骑自行车,采用无人机拍摄视角”。OpenAI首席执行官萨姆·奥尔特曼(Sam Altman)在回复中发布了一段由Sora生成的视频,视频中有企鹅、海豚和其他水生生物骑自行车。
另一段视频显示,一位身穿围裙、面带微笑的白发女士邀请观众进入她的厨房。有人向奥特曼要一段“由一名祖母辈的网红主持的自制团子烹饪课程,背景是一个质朴的托斯卡纳乡村厨房,并配有电影级的灯光”,之后Sora生成了这段AI视频。
“雪后的东京熙熙攘攘。镜头穿过繁忙的街道,跟随着几位享受着美丽雪景和在附近摊位购物的人们。美丽的樱花瓣伴随着雪花在风中飘舞”。
“一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子,拎着黑色钱包。她戴着太阳镜,涂着红色口红。她走路自信又随意。街道潮湿且反光,在彩色灯光的照射下形成镜面效果。许多行人走来走去”。
一名年约三十的宇航员戴着红色针织摩托头盔展开冒险之旅,电影预告片呈现其穿梭于蓝天白云与盐湖沙漠之间的精彩瞬间,独特的电影风格、采用35毫米胶片拍摄,色彩鲜艳。
AI想象中的龙年春节,红旗招展人山人海。有儿童紧跟舞龙队伍抬头好奇观望,还有不少人掏出手机边跟边拍,海量人物角色各有各的行为。
OpenAI表示,公司正在教授人工智能理解和模拟运动中的物理世界,目标是训练出能够帮助人们解决需要与现实世界互动的问题的模型。在此,隆重推出文本到视频模型——Sora。Sora可以生成长达一分钟的视频,同时保证视觉质量和符合用户提示的要求。
目前官网上已经更新了48个视频demo,在这些demo中,Sora不仅能准确呈现细节,还能理解物体在物理世界中的存在,并生成具有丰富情感的角色。该模型还可以根据提示、静止图像甚至填补现有视频中的缺失帧来生成视频。
如今,Sora正面向部分成员开放,以评估关键领域的潜在危害或风险。同时,OpenAI也邀请了一批视觉艺术家、设计师和电影制作人加入,期望获得宝贵反馈,以推动模型进步,更好地助力创意工作者。OpenAI提前分享研究进展,旨在与OpenAI以外的人士合作并获取反馈,让公众了解即将到来的AI技术新篇章。
Sora模型能够生成包含多个角色、特定类型运动和主体及背景精确细节的复杂场景。该模型不仅能理解用户在提示中所要求的内容,还能理解这些事物在现实世界中的存在方式。该模型对语言有深刻理解,能准确解读提示,并生成表达丰富情感的引人入胜的角色。Sora还能在单个生成的视频中创建多个镜头,使角色和视觉风格保持准确一致。
比如一大群纸飞机在树林中飞过,Sora知道碰撞后会发生什么,并表现其中的光影变化。
一群纸飞机在茂密的丛林中翩翩起舞,在树林中穿梭,就像候鸟一样。
Sora还可以在单个视频中创建多个镜头,并依靠对语言的深入理解准确地解释提示词,保留角色和视觉风格。
sora的原理似“做梦”
在发布新技术的同时,OpenAI也发布了一份关于Sora的详细技术报告。
那么,Sora 是如何实现这一突破的呢?
受到GPT大语言模型成功的启发,OpenAI引入了视觉模块嵌入代码技术,我们简称为“patches”。
这是一种高度可扩散性,且有效的视觉数据表现形式,能够极大地提升生成模型处理多样化视频和图像数据的能力。
首先,研究人员将训练的视频素材压缩成为一个一个的“patches”小模块。
在高维的3D空间中,OpenAI将每一个视频压缩成为低维代码状态,好比创建了一个一个的“小宇宙”,然后再将其分解,并将时空信息嵌入,从而将视频转化为一系列的编码块,这些可编译的模块就是模型训练的成果。
打个比方,训练Sora好比让人类看一部电影,然后大脑将电影里边的重要信息节点与场景记忆与解读存储下来,成为自己的永恒记忆。
接下来,OpenAI训练了一个专门用于降低视觉数据维度的网络。
该网络以原始训练视频作为输入信息,去模拟人类创作影片的过程,而人类创作一则新影片,本质上也是从前人或者其他作品启发下诞生的灵感。
为了降低算力成本,OpenAI将输出的模块,在时间和空间上都进行压缩处理。Sora正是经过多次反复的训练,并在该空间内生成不同的视频。
根据最新的外媒报道,OpenAI训练Sora仅仅只用了30亿的参数量。
此外,为了让Sora输出质量更好的视频片段,OpenAI还训练了一个解码器模型,能够将这些“AI脑补”的代码编译画面,还原为我们可见的视频图像。
这种基于“patches”的模型表现形式,让Sora可以适应不同视频尺寸比例、分辨率、不同时长的视频与图像生成。
不仅能够从无到有,创作完整的片段,还能延长用户提供的视频。
“patches”可以通过随机化的方式,生成的新视频内容,并根据用户制定的要求,按需求规则排列成指定的网格,来控制最终视频的尺寸和形式。
没听懂?没关系。
技术原理听起来有点复杂。实际上,OpenAI的整个研发思路,就是在模仿人类做梦的过程。
正所谓“日有所思夜有所梦”,通过我们日常生活看到的各种事物以及影像,作为Sora训练的数据集。然后让它自主创作“梦境”,并且根据我们的指定Prompt去控制“梦境”内容的生成。
Sora在进行训练的时候,会自主将毫不相关的拼图碎片,拼凑成一幅完整的拼图画面。
拼图上的每一颗碎片,就是人类投喂的训练参数所创建的“patches”。
当我们指定Sora去构建一幅新拼图时,它就会从之前的训练当中快速提取相似的画面模块,生成全新的视频片段。
Sora本质上还是一种扩散模型,它能够从文本或者图像视频出发,逐渐推理并生成新的视频。
Sora为理解现实世界和模拟重构虚拟世界的“大魔王模型”奠定了基础,OpenAI认为,这是迈向通用人工智能(AGI)的关键。
Sora目前仍存在弱点
由于刚刚推出,Sora还存在着一定的技术不成熟之处。比如:生成视频的时长限制在60秒,可能难以满足一些复杂场景的需求;生成的视频内容可能存在一定的局限性,如缺乏深度、逻辑性不足等。为了进一步完善技术,OpenAI可以考虑增加模型的训练数据、提高模型的复杂度、引入更多领域知识等。
对于Sora当前存在的弱点,OpenAI也不避讳。OpenAI方面表示,它可能难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系。
例如“五只灰狼幼崽在一条偏僻的碎石路上互相嬉戏、追逐”,狼的数量会变化,一些凭空出现或消失。
该模型还可能混淆提示的空间细节,例如混淆左右,并且可能难以精确描述随着时间推移发生的事件,例如遵循特定的相机轨迹。
如提示词“篮球穿过篮筐然后爆炸”中,篮球没有正确被篮筐阻挡。
现在,Sora正面向部分成员开放,以评估关键领域的潜在危害或风险。
OpenAI公司表示,它意识到Sora有可能制造错误信息和仇恨内容等。研究人员说,AI驱动的深度伪造已成为一种风险。同时,针对Sora可被滥用的问题,Sora已选取专家组将就如何加强对该系统的保护提供反馈意见。该公司表示,“我们也在开发有助于检测误导性内容的工具,比如检测分类器,它可以分辨视频是何时由Sora生成的。”
确保内容真实透明成重要问题
对于Sora的面世,工信部信息通信经济专家委员会委员、数字经济专家刘兴亮称,AI生成的视频可能减少了对人类演员、导演和其他创意角色的需求,从而影响到这个行业的就业。此外,随着AI技术的进步,传统的影视制作流程和商业模式也可能面临重塑。
不过,刘兴亮指出,这种转型并不意味着传统影视行业的消亡,而是需要与AI技术融合,探索新的艺术形式和表达方式。
实际上,自生成式AI出现以来,该技术一直在大肆“入侵”影视制作的全流程,由人工智能产出的内容也越来越普遍。
刘兴亮同时提到,随着AI生成内容与现实之间的界限变得越来越模糊,如何确保内容的真实性和透明性成为了一个重要问题。此外,版权、隐私和数据安全等问题也需要得到妥善解决。社会必须面对这些挑战,通过制定相关政策、法律和伦理准则来确保技术的健康发展,同时保护个人和社会的利益不受侵害。
Sora 的出现让世界看到了人工智能的无限可能。2024年第一块坚实的里程碑落下,带给人类发展的依旧是希望,它可能促使视频行业朝着更高端、更创新的方向发展。
参考来源:新华每日电讯、央视网、中国基金报、文汇报、新智元等