Audio Generieren
⚠️ Die Audio-Generierung befindet sich derzeit in der Erkundungsphase und die Ergebnisse sind relativ schlecht.
Derzeit gibt es keine ausgereiften Produkte oder Paradigmen im Bereich der Audio-Generierung. Ein Produkt, das es wert ist, beachtet zu werden, ist suno-ai/bark.
Die traditionelle Text-zu-Audio-Konvertierung beschränkt sich auf Text-zu-Sprache. Wenn wir jedoch durch Textbeschreibungen neue Musik generieren möchten, kann die Text-zu-Sprache-Technologie nicht den Bedarf decken.
Bark ist ein neues Modell, das untersucht, wie Audio durch Textbeschreibungen im Audio-Bereich generiert werden kann. Derzeit kann Bark mehrsprachige Sprache und andere Audio-Inhalte wie Musik, Hintergrundgeräusche und einfache Soundeffekte generieren.
Es verwendet ein Paradigma, das dem Stabilen Diffusionsmodell ähnelt: Audio durch Textbeschreibungen und spezifische Grammatik generieren.
Wir werden anhand eines Beispiels seine Funktionalität demonstrieren.
Fortgeschrittene Text-zu-Sprache-Technologie
Öffnen Sie die Online-Erfahrung-Seite. Sie können den zu konvertierenden Text in das Eingabefeld auf der linken Seite eingeben. Der Unterschied zur herkömmlichen Text-zu-Sprache-Technologie besteht darin, dass Bark spezifische Grammatik unterstützt und andere Soundeffekte zur Sprache hinzufügen kann. Zum Beispiel Lachen, Klopfen, Seufzen usw.
Grammatik | Effekt | Beispiel-Eingabe | Anmerkung |
---|---|---|---|
[Lachen] | Fügt Lacheffekt hinzu | Hallo, mein Name ist Suno. [Lachen] | |
[Lacht] | Fügt Lacheffekt hinzu | Hallo, mein Name ist Suno. [Lacht] | |
[Seufzt] | Fügt Seufzgeräusch hinzu | Es ist so schlimm [Seufzt] | |
♪ xxxxx ♪ | Gesang | ♪ Es ist nicht so lange, und ich bin nicht da ♪ | Wenn die Verwendung anderer Lautsprecher unwirksam ist, verwenden Sie bitte Unconditional |
Es sollte beachtet werden, dass der Lautsprecher und der eingegebene Text vom selben Typ sein müssen.
Derzeit ist die Wirkung von Bark relativ schlecht und es gibt noch einen langen Weg, bevor es wirklich angewendet werden kann. Dieses Paradigma der Musikgenerierung durch Textbeschreibung+DSL (spezifische Grammatiksprache) ist jedoch möglicherweise eine Lehre wert.
Wir werden diesen Bereich weiterhin im Auge behalten und bei Updates oder technologischen Durchbrüchen auf dem Laufenden bleiben.