オーディオ AIGC モデル
現在、オーディオ分野で利用できる優れたベースモデルはありません。
基本モデル | 発売日 | 出版社 | ノート |
---|---|---|---|
dance-diffusion | 2022.09 | harmonai | |
audio-diffusion | 2022.08 | teticio | |
riffusion | 2022.12 | Seth Forsgren | 拡散モデルに基づいてスペクトログラムを生成し、そのスペクトログラムを音楽に変換します |
audioldm | 2023.01 | haoheliu | |
bark | 2023.04 | suno.ai |
現在利用可能なオープンソース モデルとアプリケーションの間には、依然として一定の距離があります。 より良い結果を得たい場合は、mubert をご覧ください。
音楽や音声をゼロから生成するモデルに加えて、現在応用の敷居に近づいているもう 1 つのテクノロジーが 音声変換 です。
音声変換は、ソース話者の音声を変更して、別のターゲット話者のように聞こえるようにする技術です。
現在、よく知られている製品は so-vits-svc です。