オーディオ AIGC モデル

現在、オーディオ分野で利用できる優れたベースモデルはありません。

基本モデル	発売日	出版社	ノート
dance-diffusion	2022.09	harmonai
audio-diffusion	2022.08	teticio
riffusion	2022.12	Seth Forsgren	拡散モデルに基づいてスペクトログラムを生成し、そのスペクトログラムを音楽に変換します
audioldm	2023.01	haoheliu
bark	2023.04	suno.ai

現在利用可能なオープンソースモデルとアプリケーションの間には、依然として一定の距離があります。より良い結果を得たい場合は、mubert をご覧ください。

音楽や音声をゼロから生成するモデルに加えて、現在応用の敷居に近づいているもう 1 つのテクノロジーが 音声変換 です。

音声変換は、ソース話者の音声を変更して、別のターゲット話者のように聞こえるようにする技術です。

現在、よく知られている製品は so-vits-svc です。