OpenAI推出的Sora 2提示词指南,能帮助用户更好地理解如何使用 Sora 2 进行有效的提示和交互。通过提供具体的提示技巧和示例,指导用户如何构建更有效的输入,获得更准确、更符合需求的输出结果。对于开发者和使用者,是非常实用的参考资源,能提升与 Sora 2 交互的效率和质量。
如何打造一个成功的视频提示
构思提示词
请将设计提示的过程视为给一位从未看过你故事板的分镜师做简报。如果遗漏了细节,他们会即兴发挥——你可能就得不到想要的结果。通过具体说明“镜头”应实现的效果,能赋予模型更多控制权与一致性,使模型更好地工作。
保留一些开放的细节同样有效。赋予模型更多创作自由,能带来意想不到的变化和意想不到的生成效果。以下两种方法都有效:详细的提示能让你掌控画面、保持一致性,简略的提示为创意结果开辟了空间。如何平衡取决于你的目标和期望达成的效果。请将你的提示视为一份创意愿望清单,而非硬性约定。与使用ChatGPT时类似,多次使用相同的提示会产生不同的结果——这是特性,而非缺陷。每一次生成都是全新的演绎,有时第二或第三个版本反而效果更好。
最重要的是,要做好反复调整的准备。对镜头、灯光或动作的细微改动,都可能极大地改变最终效果。与模型协同创作:你负责提供方向,模型负责输出富有创意的变体。
这并非一门精确的学科——请将以下指南视为我们通过使用模型所总结出的实用建议。
API 参数
提示词用于控制视频内容,但部分属性仅能通过API参数进行设定。你无法通过文字描述请求,必须在 API 调用中显式设置:
- model:sora-2 或 sora-2-pro
- size:格式为 {宽度}x{高度} 的字符串。支持的分辨率取决于所选模型:
- sora-2
- 1280×720、720×1280
- sora-2-pro
- 1280×720、720×1280
- 1024×1792、1792×1024
- sora-2
- seconds:片段时长,支持取值:”4″、”8″、”12″。默认值为”4″
这些参数构成了视频的容器——分辨率、时长和品质不会因”延长片段”等文字描述而改变。请通过 API 调用显式设置这些参数;提示词用在控制其他所有要素(主体、动态、光影、风格)。
视频分辨率
视频分辨率直接决定 Sora 生成的视觉保真度与运动连贯性。更高分辨率能更精确地呈现细节、纹理和光影过渡,较低分辨率会压缩视觉信息,导致画面柔化或出现伪影。
视频时长
模型通常在短片中更能可靠地遵循指令。为获得最佳效果,建议采用简洁的镜头语言。如果项目允许,通过剪辑拼接两段 4 秒片段比直接生成 8 秒片段会获得更好的效果。
有效的提示词构成要素
清晰的提示词描述镜头时,就像在故事板上画草图一样。需明确说明取景构图、标注景深效果、以节奏单元描述动作,且设定光影与色调。用几个鲜明细节锚定主体使其易于辨识,单一合理的动作会让镜头更易于理解。
若需呈现连续序列,在单条提示词中描述多个镜头同样可行。采用这种方式时,请保持每个镜头单元的独立性:每次仅设定一个机位、一个主体动作、一种光影配方。这样能根据项目需求,灵活生成独立短片或连贯的长镜头。
- 简短提示词赋予模型更多创作自由。可期待出乎意料的效果。
- 详尽冗长的提示词会限制模型的创造力。模型将尝试遵循你的指引,执行效果未必始终稳定可靠。
以下是一则简短提示词示例:
这条提示词可能生成效果更好:
- “90年代纪录片” 设定了视频风格。模型将据此选择摄像机镜头、光影和调色等变量。
- “瑞典老人坐在书房里” 用简练笔触勾勒主体与场景,赋予模型对人物与环境具体形象的创作自由度。
- “说道:’我依然记得年轻时的日子。’” 描述了具体对白。Sora大概率会精准呈现这段台词。
这条提示词能稳定生成符合要求的视频。但由于诸多细节留白,成品未必完全契合你的具体构想。例如提示词未说明昼夜时段、天气状况、服装搭配、叙事基调、角色相貌年龄、摄像机角度、剪辑节奏、场景陈设等要素。除非你明确描述这些细节,否则Sora将自动补全。
超详细提示词指南
对于复杂的电影级镜头,你可以突破标准提示结构,用专业制片术语明确指定视觉风格、机位设置、色彩分级、声景设计甚至镜头叙事逻辑。好比导演向摄制组或特效团队进行技术交底。对镜头焦距、滤光片、光影效果、色调处理与运动轨迹的细致指引,能帮助模型精准锁定特定美学风格。
例如,描述观众最先注意的视觉焦点、拍摄设备与镜头型号、光线入射角度、色彩组合方案、材质肌理表现、剧情内声源以及镜头时长。当需要复刻真实摄影风格(如IMAX空中摄制、35毫米手持拍摄、复古16毫米纪录片)或保持严格镜头连贯性时,这种方法非常有效。
例子:
视觉引导线索
在撰写提示时,风格是引导模型实现预期效果最有效的手段之一。描述整体美学风格——例如”1970年代胶片质感”、”IMAX级史诗场景”或”16毫米黑白胶片”,能奠定视觉基调,统领所有后续选择。建议在提示起始就确立风格,使模型能始终保持一致的视觉表达。
相同的场景细节会因风格设定产生截然不同的呈现:无论是精致的好莱坞剧情片、手持智能手机拍摄片段,还是颗粒感的复古广告片。当整体基调确立后,再逐层添加镜头、动作和光影的具体描述。
精准表述至关重要,避免使用”一条美丽的街道”这类模糊描述,应具体说明”湿润的沥青路面、斑马线、霓虹招牌倒影”。
用”慢跑三步停在路边”替代”快速移动”这类抽象表述。
指向可见结果的动词和名词,总能带来更清晰、更稳定的输出效果。
模糊提示 | 精确提示 |
---|---|
“夜晚的街道很美” | “湿漉漉的沥青路面、斑马线、水坑里倒映的霓虹灯” |
“人动作很快” | “骑车人踩了三次踏板,刹车,然后停在人行横道上” |
“电影般的观感” | “变形 2.0x 镜头,浅景深,体积光” |
镜头调度与构图决定画面情绪,俯拍广角镜头强调空间纵深感与环境语境,平视特写则聚焦情感表达。景深运用增添叙事层次:浅景深使主体在虚化背景中脱颖而出,深景深保持前后景同样锐利。光影设计同样具有决定性作用:柔和的暖调主光营造温馨氛围,带有冷调边缘的单一硬光强化戏剧张力。
引入人物时需预判可变性——措辞的细微调整可能改变角色身份、姿态或场景焦点。保持各镜头间描述的一致性,复用关键短语确保连贯,避免使用相互冲突的特征描述。
模糊提示:
精确提示:
以下是优质构图指令示例:
- 广角定场镜头,平视视角
- 广角镜头,随冲锋动作从左至右横移
- 空中广角镜头,轻微俯拍角度
- 中近景镜头,侧后方微角度取景
以下是优质运镜指令示例:
- 缓慢倾斜摄像机
- 手持工程摄像机拍摄
控制动态与节奏
动态呈现是最难精准掌控的环节,因此务必化繁为简。每个镜头应包含一个明确的摄像机运动和一个清晰的主体动作。以节拍或计数单位描述动作效果最佳——如细微步幅、手势变换或停顿间隙——这样才能建立真实的时间维度。
“演员穿过房间”的表述缺乏可操作性。而”演员四步走至窗边,微顿,最后一秒拉动窗帘”这样的描述,使时间节奏变得精确且可实现。
模糊提示:
精确提示:
光影与色彩的一致性
光线对情绪的塑造力不亚于动作与场景。均匀漫射的光线营造宁静中性的氛围,单一强光源能制造强烈对比与紧张感。当需要拼接多个片段时,保持光影逻辑的一致性是实现无缝剪辑的关键。
应同时描述光线质感与强化氛围的基准色系。避免用”光线明亮的房间”这类宽泛表述,具体说明:”柔和窗光配合暖调台灯补光,走廊投射冷调轮廓光”。明确三至五种主色调有助于维持多镜头间的色彩体系稳定。
模糊提示:
精确提示:
使用图像输入以增强控制
若需对镜头构图与风格实现更精细的掌控,可将图像作为视觉参考输入。您可使用照片、数字艺术作品或AI生成图像。这种方法能锁定角色设计、服装造型、场景布置或整体美学风格等要素。模型会将图像作为首帧锚点,文本提示词用在定义后续动态发展。
操作指南
在POST /videos请求中包含input_reference参数并上传图像文件:
- 图像分辨率需与目标视频规格(size)匹配
- 支持文件格式:image/jpeg, image/png, image/webp
提示词:“She turns around and smiles, then slowly walks out of the frame.”(“她转过身,微笑,然后慢慢走出画面。”)
提示词:“The fridge door opens. A cute, chubby purple monster comes out of it.”(“冰箱门打开了。一个可爱、胖乎乎的紫色怪物从里面出来。”)
生成技巧
如果没有现成视觉素材,可借助OpenAI图像生成模型快速创建。您能快速生成场景环境与构图设计,随后将其作为参考输入Sora。这是一种测试美学效果并为视频生成精美起点的好方法。
对白与音效设计
对白内容需直接在提示词中明确描述。请将其置于文本描述后的独立模块,使模型能清晰区分视觉描述与台词内容。保持台词简洁自然,尽量将对话控制在少量语句内,确保时长与视频片段匹配。多角色场景中,需统一标注说话者并采用交替对话模式,有助于模型将每句台词与对应角色的神态动作准确关联。
需特别注意节奏与时序规划:4秒镜头通常容纳1-2组简短对话,8秒片段可支持稍多对白。冗长复杂的独白很难实现音画同步,且易破坏节奏。
若拍摄无声镜头,可通过细微环境声暗示节奏,例如”远处车流嘶鸣声”或”清脆响指声”。此时应将其视为节奏提示而非完整音轨设计。
含对白的提示词示例:
背景音效示例描述:
运用混音功能进行迭代优化
混音功能用在精细调整而非盲目试错。通过它实现可控改动——每次仅调整单一参数——明确说明修改内容:”相同镜头,切换至85毫米焦距”或”保持布光,更新色调:青灰、沙褐、锈红”。当效果接近预期时,将其固定为参考基准,仅描述需要微调的要素。如此能保留所有已生效的设定。
若某镜头持续表现不佳,应进行要素简化:固定摄像机位,精简动作设计,清理背景元素。待基础版本生效后,再逐步叠加复杂层次。
提示词:“Change the color of the monster to orange”(“将怪物的颜色改为橙色”)
提示词:“A second monster comes out right after”(“第二个怪物紧接着出现”)
提示词模板与示例
提示词结构设计
有效的提示词撰写方法是将不同类别的信息进行分层表述。这并非唯一的成功法则,但能提供清晰框架并提升一致性。无需囊括所有细节——若某些要素对镜头无关紧要,尽可省略。
实际上保留适当的开放维度能激发模型的创造力。对视觉元素的限制越宽松,模型就越能通过诠释带来惊喜,往往产生意想不到的精彩变体。高度描述性提示词带来更稳定可控的结果,简练的提示能开启充满想象力的全新可能。描述型提示词模板:
提示示例
示例一
示例二
评论 ( 0 )