引言:OpenAI 推出首款 AI 视频模型 Sora,震撼全球!
Sora 是什么?
Sora 是 OpenAI 最新发布的文本生成视频(Text-to-Video)大模型,能够生成长达 60 秒的视频。
它可以创造复杂场景,包括多个角色、特定动作类型以及对主题和背景的精确细节描述。Sora 对语言的理解非常深刻,能够精准识别用户指令,并生成表情丰富、情感生动的角色。此外,Sora 还能在同一视频内制作多个镜头,确保角色形象和整体视觉风格的一致性。
Sora 基于 DALL·E 3 和 ChatGPT 的研究成果,采用了 recaptioning 技术,为视觉训练数据生成详细描述的标题,从而更准确地遵循用户的文字指令。
除了从文字生成视频,Sora 还能将静止图像转化为动态视频,扩展现有视频或填补视频中的缺失画面。
一、Sora 如何申请?
截至 2025年1月 25 日,Sora 尚未面向大众开放测试,仅少数人拥有测试权限。官方透露,OpenAI 近期可能会优先向 ChatGPT Plus 用户开放 Sora 的申请权限。因此,建议提前准备好 ChatGPT Plus 订阅。
申请步骤:
- 登录官网申请:访问 red-teaming-network 申请页面。
- 填写表单:建议使用英文填写,*为必填项,包括学历、公司、专业强项、计划如何使用 Sora 等信息。注意字数限制,避免超出输入框范围。
- 提交表单:点击 Submit 提交。
二、Sora 的呈现能力
1. “60 秒一镜到底”技术
Sora 能生成长达 60 秒、具有人物和场景一致性的视频。
例如:
Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.
Sora 的技术远超 Runway、PIKA、Pixverse 等 AI 视频领域的老牌玩家,突破了生成长视频的技术瓶颈。
2. 运动镜头的丝滑衔接
Sora 实现了运动镜头的无缝衔接,无论镜头如何运动,人物、场景和视觉风格都能保持一致性和稳定性。
此外,Sora 展现了对物理世界的深刻理解,能够模拟光影变化、材质反射、物品运动轨迹等细节。
三、Sora 提示工程
与 ChatGPT 和 Midjourney 类似,Sora 通过输入 Prompt(提示词)生成内容。
Sora 的独特之处在于,它不仅能理解提示词,还能扩展提示词的内容,精准捕捉用户需求,生成充满生命力的角色和场景。
四、Sora 原理剖析
Sora 的核心技术是 Transformer + Diffusion。
- Transformer:处理时间序列,将图片分割成小的 patches(补丁),作为基本处理单元。
- Diffusion:通过自回归方式预测视频中每个 spacetime patch(时空补丁),最终生成完整的视频。
Sora 的优势在于:
- 无需裁剪视频或图片:Sora 基于 patches 而非全帧进行训练,能够处理任意大小的视频或图片。
- 更高的训练效率:无需预处理裁剪,避免因构图不良导致的输出质量下降。
五、Sora 的应用展望
Sora 的出现将对多个行业产生深远影响:
- 视频创作成本大幅下降:训练动物演员、运动镜头拍摄、特效制作等场景可由 Sora 替代。
- 影视、娱乐、广告、设计、游戏行业的全新洗牌:AI 辅助创作将成为主流。
- 未来潜力无限:随着技术的完善,Sora 有望应用于 3A 游戏大作、定制化角色外形与声音等领域。
尽管如此,Sora 目前仍存在一些不足:
- 物理规律模拟不够精确:如玻璃杯摔落后未生成碎片。
- 复杂交互场景的表现力有限:如无法准确再现多个对象之间的复杂互动。
- 需进一步学习 3D 渲染与物理规则:以实现工业级视频生成。