Skip to Main Content

Descripción general de los modelos AIGC

El núcleo de la tecnología AIGC son varios modelos de aprendizaje profundo.

Un modelo de aprendizaje profundo es una estructura compleja compuesta por una estructura de red y parámetros.

Aquí, no entraremos en demasiadas explicaciones técnicas del modelo. Para los usuarios, el modelo puede tratarse como una caja negra. Los usuarios ingresan algo (como entrada de texto), y el modelo produce contenido en una determinada forma (como imágenes y texto relacionado con la entrada).

Ingrese una descripción de contenido deseado, produzca varias formas de contenido

Desde la perspectiva de los usuarios comunes, el modelo es un archivo descargado de Internet, que generalmente termina en .pt, .safetensor o .checkpoint.

Untitled

El modelo no se puede ejecutar directamente haciendo doble clic como el software común. Necesita ser cargado por otro software para ser utilizado. Por lo general, tenemos un software de estación de trabajo para cargar y usar el modelo, como:

  • Estación de trabajo para la generación de imágenes stable-diffusion-webui
  • Estación de trabajo para la generación de texto text-generation-webui

Los usuarios descargan varios modelos en sus computadoras locales, los colocan en el directorio especificado por el software de estación de trabajo y luego inician la estación de trabajo.

En la estación de trabajo, los usuarios pueden especificar el uso de un modelo determinado. El software cargará el archivo de modelo seleccionado. Después de la carga, se puede utilizar un modelo específico.

use stable-diffusion-webui para generar su primera imagen

Todavía puede tener muchas dudas sobre cómo utilizar el software de estación de trabajo. No se preocupe, en el capítulo Descripción general del uso del modelo, lo guiaremos paso a paso para instalar y operar el software. Si no puede esperar para generar su primera obra de arte de IA, puede saltar directamente a Inicio rápido y comenzar con nuestro entorno en línea para comenzar rápidamente. Si desea obtener más información sobre el contenido relacionado con el modelo, continúe leyendo.

Clasificación de modelos

Es posible que haya oído hablar de varios nombres de modelos como Stable Diffusion, ChilloutMix y KoreanDollLikeness en Internet. ¿Por qué hay tantos modelos? ¿Cuáles son sus diferencias?

Desde la perspectiva de los usuarios, los modelos se pueden dividir en modelos básicos, modelos de ajuste fino de parámetros completos y modelos de ajuste fino ligero.

CategoríaFunciónIntroducciónEjemplo
Modelo básicoPuede usarse directamente para la generación de contenidoPor lo general, es un modelo con una nueva estructura de red lanzado por instituciones de investigación/empresas de tecnologíaStable Diffusion 1.5, Stable Diffusion 2.1
Modelo de ajuste fino de parámetros completosPuede usarse directamente para la generación de contenidoUn nuevo modelo obtenido mediante el ajuste fino del modelo básico en datos específicos, con la misma estructura que el modelo básico original pero con parámetros diferentesChilloutMix
Modelo de ajuste fino ligeroNo se puede usar directamente para la generación de contenidoEl modelo se ajusta mediante métodos de ajuste fino ligeroKoreanDollLikeness, JapaneseDollLikeness

El ajuste fino se refiere a volver a entrenar el modelo básico en datos específicos para obtener un modelo ajustado fino. El modelo ajustado fino tiene un mejor rendimiento que el modelo básico original en escenarios específicos.

Modelos de imagen

Tomando como ejemplo los modelos de contenido de imagen, casi todos los modelos actualmente en el mercado se derivan de la serie de modelos Stable Diffusion. Stable Diffusion es un modelo de generación de contenido de imagen de código abierto lanzado por stability.ai. Desde agosto de 2022 hasta ahora, se han lanzado cuatro versiones.

  • Stable Diffusion
  • Stable Diffusion 1.5
  • Stable Diffusion 2.0
  • Stable Diffusion 2.1

Actualmente, la mayoría de los modelos derivados principales en la comunidad se basan en Stable Diffusion 1.5 para el ajuste fino.

En el campo de la generación de imágenes, los modelos de la serie Stable Diffusion se han convertido en el estándar de facto.

Modelos de texto

En el campo del texto, actualmente no hay un estándar unificado. Con el lanzamiento de ChatGPT en noviembre, algunas instituciones de investigación y empresas han lanzado sus propios modelos ajustados finos, cada uno con sus propias características. Entre ellos, los más famosos incluyen LLaMA lanzado por Meta y StableLM lanzado por stability.ai.

Actualmente, hay varios problemas principales en la generación de contenido de texto:

  1. Longitud corta del contexto del diálogo, si el texto para el diálogo con el modelo es demasiado largo, el modelo olvidará el contenido anterior. Actualmente, solo RWKV puede lograr un contexto largo debido a la gran diferencia en la estructura del modelo con otros modelos. La mayoría de los modelos de texto se basan actualmente en estructuras de transformador, y el contexto suele ser corto.
  2. Los modelos son demasiado grandes, cuanto mayor es el modelo, más parámetros y más recursos informáticos se requieren para la generación de contenido.

Modelos de audio

En el campo del audio, hay algunas peculiaridades. Para un solo contenido de audio, se puede dividir en tres categorías: voz de actor de voz, sonido y música.

  • Voz: Tradicionalmente, la tecnología del habla suele utilizar la tecnología de síntesis de voz (TTS) para la generación, lo que carece de imaginación artística. Actualmente, hay pocas personas prestando atención a esto, y no hay una herramienta de código abierto madura para el paradigma de datos->modelo, modelo->contenido.
  • Música🎵: La música es un campo más imaginativo. Hace 16 años, las empresas comerciales comenzaron a proporcionar modelos de IA para generar música. Con la popularidad de Stable Diffusion, algunos desarrolladores también han propuesto utilizar Stable Diffusion para generar música, como Riffusion. Sin embargo, el efecto actual no es lo suficientemente asombroso. En octubre de 2022, Google lanzó AudioLDM, que puede seguir escribiendo después de un segmento de música. En abril de 2023, suno.ai lanzó el modelo bark. El campo de la música todavía está en la etapa de desarrollo. Quizás después de medio año a un año de desarrollo, también romperá el punto crítico de aplicación como el campo de la imagen.
  • Sonido: Para sonidos simples, como golpear una puerta y el sonido de las olas, son relativamente fáciles de generar. AudioLDM y bark existentes pueden generar sonidos simples.

Modelos de video

Actualmente, los modelos de video aún se encuentran en las primeras etapas de desarrollo. En comparación con las imágenes, los videos tienen información contextual, y los recursos necesarios para la generación de video suelen ser mucho mayores que los de las imágenes. Cuando la tecnología no es lo suficientemente madura, a menudo se desperdician recursos informáticos para generar contenido de baja calidad. Actualmente, no hay software de generación de video relativamente maduro para usuarios comunes. Por lo tanto, no recomendamos que los usuarios comunes intenten generar videos por sí mismos. Si aún desea experimentar con la generación de video, puede utilizar los servicios en línea proporcionados por RunwayML para probarlo.

Modelos de contenido 3D

En los juegos 3D modernos, a menudo se requieren una gran cantidad de recursos de modelos 3D. Además, podemos utilizar la tecnología de impresión 3D para imprimir modelos 3D en objetos de arte del mundo real.

En el campo de la generación de contenido 3D, la demanda es relativamente pequeña y actualmente no hay un paradigma completo. Algunos proyectos que se pueden utilizar como referencia incluyen:

Actualmente, la tecnología de generación de contenido 3D está cerca del punto crítico de aplicación en algunos servicios SaaS. Sin embargo, aún no hay un producto de código abierto con una calidad relativamente alta.

Otros modelos

Además de los modelos que generan contenido básico, también hay modelos que pueden integrar múltiples modalidades y pueden comprender y generar contenido modal múltiple. Actualmente, esta parte de la tecnología está en la etapa de desarrollo.

Algunos proyectos que se pueden utilizar como referencia incluyen: