Sora 2
不支持
4096 tokens
4096 tokens
多模态大模型
2025-09-30
OpenAI正式推出了 Sora 2 ——其旗舰级视频与音频生成模型。相比2024年2月发布的初代 Sora,本次升级带来了断层级的真实感与显著增强的可控性。它不仅能更好地遵循物理规律生成视频,还首次实现了同步对话与环境音效的生成,并通过全新 iOS 应用“Sora”开放给公众使用。
这一发布被许多人比喻为视频生成领域的“GPT-3.5时刻”:不仅能“看起来像”,更能“做得对”。
初代 Sora 在发布时就被称为“GPT-1 for video”——它让人第一次看到大规模训练下视频生成的雏形,甚至自然出现了“物体持久性”这类基础概念。但它的不足同样明显:
Sora 2 正是在这些关键短板上完成了突破。OpenAI 在过去一年加大了对大规模视频数据的预训练与后训练,使得模型拥有了更强的“世界模拟能力”。这意味着它能更准确地遵循物理逻辑,甚至在“失败”场景中表现合理。
例如:
这正是通向“世界模拟器”这一更宏大AI目标的关键一步。
在最新的基准评测中,Sora 2 在视频真实感方面获得了 比上一代高出72%的用户偏好率(样本量N=10,000,95%置信区间±1.5%)。
具体对比:
来自内部对比实验的结论是:Sora 2 已经能够覆盖此前模型“无法做到”的领域。这不仅体现在奥运体操、三周半跳等极限动作上,也体现在细微的生活细节,例如猫咪从桌上跳下时的重量感与落地声。
Sora 2 最突出的升级是对物理规律的遵循。这不仅提升了画面的可信度,也让“失败”场景更加自然。例如:一名跳水运动员如果动作失误,水花会如实溅起,而不会被模型“修正”。
这种真实感对于教育、科研和影视预演尤为重要。比如物理教学中,学生可以用文字描述实验场景,Sora 2 会生成严格遵循力学规律的视频。
与大多数视频生成工具不同,Sora 2 不再是“无声电影”。它能同时生成:
这意味着一个创作者只需输入一句提示词,就能得到完整的短片,无需再依赖额外的配音或后期制作。
例如:输入“两个极地探险家在暴风雪中喊话”,生成的视频中不仅有逼真的雪景,还能听到呼啸的风声与逐句传递的对白。
Sora 2 引入了革命性的“Cameo”功能:用户可以通过一次短暂的视频和音频采集,将自己或朋友的形象与声音注入模型。之后,任何场景中都能以高度保真的方式出现这一角色。
实际应用极其广泛:
这种“你自己入镜”的交互方式,被许多测试者评价为“继文字、表情包、语音消息之后的新型沟通方式”。
Sora 2 现已通过 Sora iOS应用上线,美国和加拿大地区率先开放,并将逐步扩展至更多国家。
使用方式:
价格方面:
安全机制:
OpenAI 强调,Sora 的推荐算法不会强化“无限滚动”,而是以“创作优先”为导向。这被视为对当下社交媒体弊病的一种回应。
Sora 2 的出现标志着视频生成从“能做出片段”迈向“能模拟世界”。它不仅在物理真实感、声音同步和角色可控性上取得了革命性突破,更通过社交化应用探索了全新的内容消费与创作模式。
对于创作者,它是电影化表达的捷径;
对于教育和科研,它是世界模拟的工具;
对于普通用户,它是一种全新的社交沟通方式。
OpenAI 表示,Sora 2 只是旅程的开始。随着模型不断进化,它有望成为通向通用人工智能的关键里程碑。
👉 官方下载链接:Sora iOS 应用
👉 更多技术细节与安全说明:Sora 2 安全文档
关注DataLearnerAI微信公众号,接受最新大模型资讯