跳到主要内容

Audio Generate

⚠️ 音频生成目前还处于探索阶段,效果比较差

在线体验

目前,在音频生成领域,暂无较为成熟的产品和范式,一个值得关注的产品是 suno-ai/bark

传统的文字和音频转换,局限于文字转语音。但是,如果我们希望通过文字描述,生成新的音乐,文字转语音技术就无法满足需求了

bark 是一个新的模型,探索如何在音频领域,通过文字描述生成音频,目前 bark 可以生成多语言语音以及其他音频,包括音乐、背景噪音和简单的音效

它使用一种类似于 Stable Diffusion 的范式:通过文字描述和特定的语法生成音频

我们会使用一个样例来带您体验它的功能

高级TTS

打开在线体验的页面,你可以在左边的输入框内,输入要被转为语音的文字,和普通文字转语音技术的不同之处在于,bark 支持特定的语法可以在语音中加入其他音效。例如人物的笑声,敲门声,叹气声等等

Untitled

语法效果样例输入备注
[laughter]添加笑声音效Hello, my name is Suno. [laughter]
[laughs]添加笑声音效Hello, my name is Suno. [laughs]
[sighs]添加叹气音效It's so bad [sighs]
♪ xxxxx ♪唱歌♪ It's not so long, And I'm not there ♪如果使用其他的Speaker 无效,请使用Unconditional

需要注意的是,Speaker 和输入的文字需要是同一类型

目前 bark 的效果相对较差,距离真正应用还有一段的空间,不过这种通过文字描述+DSL(特定语法的语言)进行音乐生成的范式或许能够被借鉴

我们会持续关注这块,如果有更新的技术突破的话,我们会进行跟进