Aperçu des modèles AIGC
Le cœur de la technologie AIGC est constitué de différents modèles d'apprentissage en profondeur.
Un modèle d'apprentissage en profondeur est une structure complexe composée d'une structure de réseau et de paramètres.
Dans ce chapitre, nous n'entrerons pas dans les principes techniques du modèle. Pour les utilisateurs, le modèle peut être considéré comme une boîte noire. Les utilisateurs saisissent quelque chose (comme du texte), et le modèle génère un contenu sous une forme quelconque (comme des images ou du texte) en rapport avec l'entrée.
Du point de vue d'un utilisateur ordinaire, le modèle est un fichier téléchargé sur Internet, généralement avec une extension .pt, .safetensor ou .checkpoint.
Le modèle ne peut pas être exécuté directement en double-cliquant comme un logiciel ordinaire. Il doit être chargé par un autre logiciel avant de pouvoir être utilisé. Habituellement, nous avons un logiciel de banc d'essai pour charger et utiliser les modèles, tels que :
- Banc d'essai pour la génération d'images : stable-diffusion-webui
- Banc d'essai pour la génération de texte : text-generation-webui
Les utilisateurs téléchargent divers modèles sur leur ordinateur local, les placent dans le répertoire spécifié par le logiciel de banc d'essai, puis lancent le banc d'essai.
Dans le banc d'essai, les utilisateurs peuvent spécifier quel modèle utiliser. Le logiciel chargera le fichier de modèle sélectionné par l'utilisateur. Après le chargement, un modèle spécifique peut être utilisé.
Utilisez stable-diffusion-webui pour générer votre première image
Vous pouvez encore avoir de nombreuses questions sur la façon d'utiliser le logiciel de banc d'essai. Ne vous inquiétez pas. Dans le chapitre Aperçu de l'utilisation des modèles, nous vous guiderons pas à pas sur la façon d'installer et d'utiliser le logiciel. Si vous ne pouvez pas attendre pour générer votre première œuvre d'art IA, vous pouvez passer directement au Démarrage rapide et utiliser l'environnement en ligne que nous fournissons pour commencer rapidement. Si vous voulez encore en savoir plus sur le contenu lié au modèle, continuons.
Classification des modèles
Vous avez peut-être entendu parler de différents noms de modèles tels que Stable Diffusion, ChilloutMix et KoreanDollLikeness sur Internet. Pourquoi y a-t-il autant de modèles ? Quelles sont leurs différences ?
Du point de vue de l'utilisateur, les modèles peuvent être divisés en modèles de base, modèles de réglage complet des paramètres et modèles de réglage léger des paramètres.
Catégorie | Fonction | Description | Exemple |
---|---|---|---|
Modèles de base | Peuvent être directement utilisés pour la génération de contenu | Habituellement, les institutions de recherche/entreprises technologiques publient un modèle avec une nouvelle structure de réseau | Stable Diffusion 1.5, Stable Diffusion 2.1 |
Modèles de réglage complet des paramètres | Peuvent être directement utilisés pour la génération de contenu | Un nouveau modèle obtenu en réglant finement le modèle de base sur des données spécifiques, avec la même structure que le modèle de base original mais des paramètres différents | ChilloutMix |
Modèles de réglage léger des paramètres | Ne peuvent pas être directement utilisés pour la génération de contenu | Le modèle est réglé finement en utilisant des méthodes de réglage léger des paramètres | KoreanDollLikeness, JapaneseDollLikeness |
Le réglage fin fait référence à la reformation du modèle de base sur des données spécifiques, de sorte que le modèle réglé finement fonctionne mieux que le modèle de base original dans des scénarios spécifiques.
Modèles d'images
Prenons les modèles d'images comme exemple, presque tous les modèles sur le marché sont dérivés de la série de modèles Stable Diffusion. Stable Diffusion est un modèle de génération de contenu d'image open-source publié par stability.ai. Depuis août 2022 jusqu'à présent, quatre versions ont été publiées.
- Stable Diffusion
- Stable Diffusion 1.5
- Stable Diffusion 2.0
- Stable Diffusion 2.1
Actuellement, la plupart des modèles dérivés de la communauté sont basés sur Stable Diffusion 1.5 pour le réglage fin.
Dans le domaine de la génération d'images, les modèles de la série Stable Diffusion sont devenus la norme de facto.
Modèles de texte
Dans le domaine du texte, il n'y a actuellement pas de norme unifiée. Avec la sortie de ChatGPT en novembre, certaines institutions de recherche et entreprises ont publié leurs propres modèles réglés finement, chacun ayant ses propres caractéristiques, notamment LLaMA publié par Meta et StableLM publié par stability.ai.
Actuellement, il existe plusieurs problèmes clés dans la génération de contenu de texte :
- Contexte de conversation court : Si le texte de la conversation avec le modèle est trop long, le modèle oubliera le contenu précédent. Actuellement, seul RWKV peut atteindre un contexte long en raison des différences significatives dans la structure du modèle par rapport aux autres modèles. La plupart des modèles de texte sont basés sur des structures de transformateur, et le contexte est souvent court.
- Les modèles sont trop volumineux : Plus le modèle est grand, plus il a de paramètres, et plus il faut de ressources de calcul pour la génération de contenu.
Modèles audio
Dans le domaine audio, il y a quelques caractéristiques spéciales. Pour un seul contenu audio, il peut être divisé en trois catégories : la parole de l'acteur vocal, le son et la musique.
- Parole : Traditionnellement, la technologie de la parole utilise généralement la technologie de synthèse de la parole (TTS) pour générer la parole, ce qui manque d'imagination artistique. Actuellement, peu de gens y prêtent attention, et il n'y a pas d'outil open-source mature pour le paradigme de données → modèle ou modèle → contenu.
- Musique : La musique est un domaine plus imaginatif. Dès 2016, des entreprises commerciales ont commencé à fournir des modèles d'IA pour générer de la musique. Avec la popularité de Stable Diffusion, certains développeurs ont proposé d'utiliser Stable Diffusion pour générer de la musique, comme Riffusion. Cependant, l'effet n'est pas assez étonnant. En octobre 2022, Google a publié AudioLDM, qui peut continuer à écrire après un fragment de musique. En avril 2023, suno.ai a publié le modèle bark. Actuellement, le domaine de la musique est encore en développement. Peut-être qu'après un an à un an et demi de développement, il atteindra également le point critique d'application comme le domaine de l'image.
- Son : Le son pur, comme le bruit de la porte, les vagues de la mer, est relativement simple à générer car les éléments sont relativement simples. Les modèles AudioLDM et bark existants peuvent générer des sons simples.
Modèles vidéo
Actuellement, les modèles vidéo en sont encore aux premiers stades de développement. Comparés aux images, les vidéos ont des informations contextuelles, et la génération de vidéos nécessite souvent plus de ressources que la génération d'images. Lorsque la technologie n'est pas assez mature, elle gaspille souvent des ressources de calcul pour générer du contenu de faible qualité. En même temps, il n'y a actuellement aucun logiciel de génération de vidéo mature pour les utilisateurs ordinaires. Par conséquent, nous ne recommandons pas aux utilisateurs ordinaires d'essayer de générer des vidéos eux-mêmes. Si vous voulez quand même expérimenter la génération de vidéos, vous pouvez utiliser le service en ligne fourni par RunwayML pour l'essayer.
Modèles de contenu 3D
Dans les jeux 3D modernes, une grande quantité de ressources de modèles 3D est souvent requise. De plus, nous pouvons utiliser la technologie d'impression 3D pour transformer les modèles 3D en œuvres d'art physiques réelles.
Dans le domaine de la génération de contenu 3D, la demande est relativement faible, et il n'y a actuellement pas de paradigme complet. Certains projets pouvant être utilisés comme référence comprennent :
Actuellement, la technologie de génération de contenu 3D est proche du point critique d'application sur certains services saas.
Autres modèles
En plus des modèles qui génèrent un contenu de base, il existe également des modèles qui peuvent intégrer plusieurs modalités et peuvent comprendre et générer un contenu multimodal. Actuellement, cette partie de la technologie est en phase de développement.
Certains projets pouvant être utilisés comme références incluent: