オーディオ AIGC モデル
現在、オーディオ分野で利用できる優れたベースモデルはありません。
| 基本モデル | 発売日 | 出版社 | ノート |
|---|---|---|---|
| dance-diffusion | 2022.09 | harmonai | |
| audio-diffusion | 2022.08 | teticio | |
| riffusion | 2022.12 | Seth Forsgren | 拡散モデルに基づいてスペクトログラムを生成し、そのスペクトログラムを音楽に変換します |
| audioldm | 2023.01 | haoheliu | |
| bark | 2023.04 | suno.ai |
現在利用可能なオープンソース モデルとアプリケーションの間には、依然として一定の距離があります。 より良い結果を得たい場合は、mubert をご覧ください。
音楽や音声をゼロから生成するモデルに加えて、現在応用の敷居に近づいているもう 1 つのテクノロジーが 音声変換 です。
音声変換は、ソース話者の音声を変更して、別のターゲット話者のように聞こえるようにする技術です。
現在、よく知られている製品は so-vits-svc です。