出道即王炸！OpenAI首个文生视频模型Sora特别在哪？_热点科普

出道即王炸！OpenAI首个文生视频模型Sora特别在哪？

来源：北京科技报发布日期：2024-02-19 09:45:13 阅读量：0

2月16日，

OpenAI再次扔出一枚深水炸弹，

发布了文生视频模型Sora。

Sora完美继承DALL·E 3的画质

和遵循指令能力，

能生成长达1分钟的高清视频。

整理/段大卫

可以说，Sora出道即王炸，它能够根据用户的一句话生成长达一分钟的视频，且视频流畅度和稳定性皆在水准之上。

目前官网上已经更新了48个视频demo，在这些demo中，Sora不仅能准确呈现细节，还能理解物体在物理世界中的存在，并生成具有丰富情感的角色。该模型还可以根据提示、静止图像甚至填补现有视频中的缺失帧来生成视频。

Runway Gen 2、Pika等AI视频工具，都还在突破几秒内的连贯性，而OpenAI，已经达到了史诗级的纪录。

对比AI视频里Runway、Pika、Google和Meta这些主流玩家， Sora的特别之处在于：

1.能够生成具有多个角色、特定类型动作和主题背景的复杂视频，时长可达到1分钟。

2.可以在单个生成的视频中创建多个镜头，模拟复杂的摄像机运镜，同时准确地保持角色和视觉风格。

3.最重要的是，它不仅理解用户在提示中要求的内容，还能自己理解这些事物在现实世界中的存在方式。

视频画面如现实

OpenAI发布了多个Sora生成的视频，大家可以感受一下。或许已经很难再分清，AI和现实的界限了。

有人提出想要“一段海上自行车比赛的视频，让各种动物作为运动员骑自行车，采用无人机拍摄视角”。OpenAI首席执行官萨姆·奥尔特曼（Sam Altman）在回复中发布了一段由Sora生成的视频，视频中有企鹅、海豚和其他水生生物骑自行车。

另一段视频显示，一位身穿围裙、面带微笑的白发女士邀请观众进入她的厨房。有人向奥特曼要一段“由一名祖母辈的网红主持的自制团子烹饪课程，背景是一个质朴的托斯卡纳乡村厨房，并配有电影级的灯光”，之后Sora生成了这段AI视频。

“雪后的东京熙熙攘攘。镜头穿过繁忙的街道，跟随着几位享受着美丽雪景和在附近摊位购物的人们。美丽的樱花瓣伴随着雪花在风中飘舞”。

“一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子，拎着黑色钱包。她戴着太阳镜，涂着红色口红。她走路自信又随意。街道潮湿且反光，在彩色灯光的照射下形成镜面效果。许多行人走来走去”。

一名年约三十的宇航员戴着红色针织摩托头盔展开冒险之旅，电影预告片呈现其穿梭于蓝天白云与盐湖沙漠之间的精彩瞬间，独特的电影风格、采用35毫米胶片拍摄，色彩鲜艳。

AI想象中的龙年春节，红旗招展人山人海。有儿童紧跟舞龙队伍抬头好奇观望，还有不少人掏出手机边跟边拍，海量人物角色各有各的行为。

OpenAI表示，公司正在教授人工智能理解和模拟运动中的物理世界，目标是训练出能够帮助人们解决需要与现实世界互动的问题的模型。在此，隆重推出文本到视频模型——Sora。Sora可以生成长达一分钟的视频，同时保证视觉质量和符合用户提示的要求。

如今，Sora正面向部分成员开放，以评估关键领域的潜在危害或风险。同时，OpenAI也邀请了一批视觉艺术家、设计师和电影制作人加入，期望获得宝贵反馈，以推动模型进步，更好地助力创意工作者。OpenAI提前分享研究进展，旨在与OpenAI以外的人士合作并获取反馈，让公众了解即将到来的AI技术新篇章。

Sora模型能够生成包含多个角色、特定类型运动和主体及背景精确细节的复杂场景。该模型不仅能理解用户在提示中所要求的内容，还能理解这些事物在现实世界中的存在方式。该模型对语言有深刻理解，能准确解读提示，并生成表达丰富情感的引人入胜的角色。Sora还能在单个生成的视频中创建多个镜头，使角色和视觉风格保持准确一致。

比如一大群纸飞机在树林中飞过，Sora知道碰撞后会发生什么，并表现其中的光影变化。

一群纸飞机在茂密的丛林中翩翩起舞，在树林中穿梭，就像候鸟一样。

Sora还可以在单个视频中创建多个镜头，并依靠对语言的深入理解准确地解释提示词，保留角色和视觉风格。

sora的原理似“做梦”

在发布新技术的同时，OpenAI也发布了一份关于Sora的详细技术报告。

那么，Sora 是如何实现这一突破的呢？

受到GPT大语言模型成功的启发，OpenAI引入了视觉模块嵌入代码技术，我们简称为“patches”。

这是一种高度可扩散性，且有效的视觉数据表现形式，能够极大地提升生成模型处理多样化视频和图像数据的能力。

首先，研究人员将训练的视频素材压缩成为一个一个的“patches”小模块。

在高维的3D空间中，OpenAI将每一个视频压缩成为低维代码状态，好比创建了一个一个的“小宇宙”，然后再将其分解，并将时空信息嵌入，从而将视频转化为一系列的编码块，这些可编译的模块就是模型训练的成果。

打个比方，训练Sora好比让人类看一部电影，然后大脑将电影里边的重要信息节点与场景记忆与解读存储下来，成为自己的永恒记忆。

接下来，OpenAI训练了一个专门用于降低视觉数据维度的网络。

该网络以原始训练视频作为输入信息，去模拟人类创作影片的过程，而人类创作一则新影片，本质上也是从前人或者其他作品启发下诞生的灵感。

为了降低算力成本，OpenAI将输出的模块，在时间和空间上都进行压缩处理。Sora正是经过多次反复的训练，并在该空间内生成不同的视频。

根据最新的外媒报道，OpenAI训练Sora仅仅只用了30亿的参数量。

此外，为了让Sora输出质量更好的视频片段，OpenAI还训练了一个解码器模型，能够将这些“AI脑补”的代码编译画面，还原为我们可见的视频图像。

这种基于“patches”的模型表现形式，让Sora可以适应不同视频尺寸比例、分辨率、不同时长的视频与图像生成。

不仅能够从无到有，创作完整的片段，还能延长用户提供的视频。

“patches”可以通过随机化的方式，生成的新视频内容，并根据用户制定的要求，按需求规则排列成指定的网格，来控制最终视频的尺寸和形式。

没听懂？没关系。

技术原理听起来有点复杂。实际上，OpenAI的整个研发思路，就是在模仿人类做梦的过程。

正所谓“日有所思夜有所梦”，通过我们日常生活看到的各种事物以及影像，作为Sora训练的数据集。然后让它自主创作“梦境”，并且根据我们的指定Prompt去控制“梦境”内容的生成。

Sora在进行训练的时候，会自主将毫不相关的拼图碎片，拼凑成一幅完整的拼图画面。

拼图上的每一颗碎片，就是人类投喂的训练参数所创建的“patches”。

当我们指定Sora去构建一幅新拼图时，它就会从之前的训练当中快速提取相似的画面模块，生成全新的视频片段。

Sora本质上还是一种扩散模型，它能够从文本或者图像视频出发，逐渐推理并生成新的视频。

Sora为理解现实世界和模拟重构虚拟世界的“大魔王模型”奠定了基础，OpenAI认为，这是迈向通用人工智能（AGI）的关键。

Sora目前仍存在弱点

由于刚刚推出，Sora还存在着一定的技术不成熟之处。比如：生成视频的时长限制在60秒，可能难以满足一些复杂场景的需求；生成的视频内容可能存在一定的局限性，如缺乏深度、逻辑性不足等。为了进一步完善技术，OpenAI可以考虑增加模型的训练数据、提高模型的复杂度、引入更多领域知识等。

对于Sora当前存在的弱点，OpenAI也不避讳。OpenAI方面表示，它可能难以准确模拟复杂场景的物理原理，并且可能无法理解因果关系。

例如“五只灰狼幼崽在一条偏僻的碎石路上互相嬉戏、追逐”，狼的数量会变化，一些凭空出现或消失。

该模型还可能混淆提示的空间细节，例如混淆左右，并且可能难以精确描述随着时间推移发生的事件，例如遵循特定的相机轨迹。

如提示词“篮球穿过篮筐然后爆炸”中，篮球没有正确被篮筐阻挡。

现在，Sora正面向部分成员开放，以评估关键领域的潜在危害或风险。

OpenAI公司表示，它意识到Sora有可能制造错误信息和仇恨内容等。研究人员说，AI驱动的深度伪造已成为一种风险。同时，针对Sora可被滥用的问题，Sora已选取专家组将就如何加强对该系统的保护提供反馈意见。该公司表示，“我们也在开发有助于检测误导性内容的工具，比如检测分类器，它可以分辨视频是何时由Sora生成的。”

确保内容真实透明成重要问题

对于Sora的面世，工信部信息通信经济专家委员会委员、数字经济专家刘兴亮称，AI生成的视频可能减少了对人类演员、导演和其他创意角色的需求，从而影响到这个行业的就业。此外，随着AI技术的进步，传统的影视制作流程和商业模式也可能面临重塑。

不过，刘兴亮指出，这种转型并不意味着传统影视行业的消亡，而是需要与AI技术融合，探索新的艺术形式和表达方式。

实际上，自生成式AI出现以来，该技术一直在大肆“入侵”影视制作的全流程，由人工智能产出的内容也越来越普遍。

刘兴亮同时提到，随着AI生成内容与现实之间的界限变得越来越模糊，如何确保内容的真实性和透明性成为了一个重要问题。此外，版权、隐私和数据安全等问题也需要得到妥善解决。社会必须面对这些挑战，通过制定相关政策、法律和伦理准则来确保技术的健康发展，同时保护个人和社会的利益不受侵害。

Sora 的出现让世界看到了人工智能的无限可能。2024年第一块坚实的里程碑落下，带给人类发展的依旧是希望，它可能促使视频行业朝着更高端、更创新的方向发展。

参考来源：新华每日电讯、央视网、中国基金报、文汇报、新智元等

重点聚焦更多>>

热点科普更多>>

出道即王炸！OpenAI首个文生视频模型Sora特别在哪？

友情链接

全媒体矩阵

合作机构

联系我们