오디오 생성
⚠️ 현재 오디오 생성은 탐색 단계에 있으며 결과물은 비교적 부족합니다.
현재 오디오 생성 분야에서는 성숙한 제품이나 패러다임이 없습니다. 주목할 가치가 있는 제품 중 하나는 suno-ai/bark입니다.
전통적인 텍스트에서 오디오로의 변환은 텍스트 음성 변환에 한정됩니다. 그러나 텍스트 설명을 통해 새로운 음악을 생성하려면 텍스트 음성 기술로는 수요를 충족시킬 수 없습니다.
Bark는 오디오 분야에서 텍스트 설명을 통해 오디오를 생성하는 방법을 탐구하는 새로운 모델입니다. 현재 Bark는 다국어 음성 및 음악, 배경 소음 및 간단한 효과음 등 다양한 오디오를 생성할 수 있습니다.
Bark는 Stable Diffusion과 유사한 패러다임을 사용하여 텍스트 설명 및 특정 문법을 통해 오디오를 생성합니다.
기능을 체험해 보기 위해 예제를 사용합니다.
고급 TTS
온라인 체험 페이지를 엽니다. 왼쪽 입력 상자에 변환할 텍스트를 입력할 수 있습니다. 일반적인 텍스트 음성 기술과의 차이점은 Bark가 특정 문법을 지원하며 음성에 기타 효과음을 추가할 수 있다는 것입니다. 예를 들어, 웃음, 노크, 한숨 등이 있습니다.
문법 | 효과 | 예제 입력 | 비고 |
---|---|---|---|
[laughter] | 웃음 효과 추가 | 안녕, 제 이름은 Suno입니다. [laughter] | |
[laughs] | 웃음 효과 추가 | 안녕, 제 이름은 Suno입니다. [laughs] | |
[sighs] | 한숨 효과 추가 | 이렇게 안 좋아요 [sighs] | |
♪ xxxxx ♪ | 노래 | ♪ It's not so long, And I'm not there ♪ | 다른 스피커를 사용해도 효과가 없는 경우, Unconditional을 사용하십시오. |
스피커와 입력 텍스트는 동일한 유형이어야 합니다.
현재 Bark의 효과는 비교적 부족하며, 실제로 적용할 수 있는 수준까지는 아직 멀었습니다. 그러나 텍스트 설명+DSL(특정 문법 언어)를 통한 음악 생성의 이러한 패러다임은 배울 가치가 있을 수 있습니다.
우리는 이 분야를 계속해서 주목하고 있으며, 업데이트나 기술적인 발전이 있으면 따라갈 것입니다.