Stable Audio是什么?
Stable Audio是由Stability AI开发的一款AI音乐创作平台,用户只需提供文字描述和期望的音频时长,即可获得高品质的音乐与音效作品。 该平台支持通过文字指令生成多种风格的背景音乐,包括但不限于摇滚、爵士、电子、嘻哈、重金属、民谣、流行、朋克和乡村等20余种类型。 举例来说,当输入迪斯科、鼓机、合成器、贝司、钢琴、吉他等关键词,并指定欢快情绪与115BPM的节奏时,系统能迅速生成符合要求的背景音乐。 Stable Audio官方网站:http://stableaudio.com
Stable Audio工作原理
Stable Audio基于一种特殊的潜在扩散模型架构,该架构融合了文本元数据、音频文件时长及起始时间等时序信息,从而实现对生成音频内容和长度的精准控制。这种独特的时序约束机制使得平台能够按照用户指定的时长生成音频,直至达到预设的训练窗口规模。

Stable Audio主要特点
- 先进扩散模型:Stable Audio采用包含变分自编码器(VAE)、文本编码器及U-Net条件扩散模型的复合式潜在扩散架构。
- 高效音频处理:通过重度下采样技术实现音频潜在表示,相比原始音频可大幅缩短推理时间。
- 文本条件控制:借助在专属数据集上预训练的CLAP模型文本编码器,实现精准的文本提示条件设置。
- 时序特征嵌入:训练过程中同步计算音频块的起始秒数与音频总时长,并将这些数值转化为离散时序嵌入,与提示信息协同作用。
- 海量数据支持:该模型依托于包含超过80万音频文件的数据集,涵盖各类音乐、音效及单一乐器音轨,并配有完整文本元数据。
Stable Audio产品价格
- 免费套餐:每月可生成20条音乐,单条最长45秒,仅限非商业用途;
- 专业版:月费11.99美元,每月可生成500条音乐,单条最长90秒,支持商业使用。
- 企业方案:需联系Stability AI官方获取定制服务。联系方式:hey@stableaudio.com
如何使用Stable Audio?
访问Stable Audio网站:http://stableaudio.com ,注册账号后即可进入创作界面。 在界面左上方的文本框中输入音乐创作需求,点击生成按钮即可获取结果。如遇界面加载问题,建议多次刷新页面。
技术详解:https://stability.ai/research/stable-audio-efficient-timing-latent-diffusion
评论 ( 0 )