Modelos de Texto AIGC
Actualmente existen muchos modelos de texto, algunos de los cuales son productos de la afinación de modelos grandes existentes, y algunos de los cuales son modelos básicos entrenados desde cero por varias empresas.
Modelos Básicos Bien Conocidos
Modelo Básico | Fecha de Lanzamiento | Tamaño del Modelo | Publicador | Idioma | Características |
---|---|---|---|---|---|
LLaMA | 2023.03 | 7B~65B | Meta | Principalmente inglés, soporte débil para otros idiomas | |
MPT | 2023.05 | 7B | mosaicml | Principalmente inglés, soporte débil para otros idiomas | Disponible comercialmente, soporta contextos largos |
ChatGLM | 2023.03 | 6B | THUDM | Chino e inglés | |
Cerebras-GPT | 2023.03 | 1.3B~13B | cerebras | Principalmente inglés, soporte débil para otros idiomas | |
rwkv-4-raven | 2023.04 | 1.5B~14B | BlinkDL | Múltiples versiones, diferentes versiones tienen diferentes soportes de idioma | Estructura no transforma |
OpenFlamingo | 2023.03 | 9B | LAION | Principalmente inglés, soporte débil para otros idiomas | Multi-modal, soporta imágenes |
StableLM | 2023.04 | 3B~7B | stability.ai | Principalmente inglés, soporte débil para otros idiomas | |
Bloom | 2022.10 | 1B~176B | bigscience | 59 idiomas | |
RedPajama-INCITE | 2023.05 | 3B~7B | together | Principalmente inglés, soporte débil para otros idiomas | |
pythia | 2023.03 | 1B~12B | eleuther.ai | Inglés | |
GPT-Neo | 2021.03 | 125M~2.7B | eleuther.ai | Inglés | |
GPT-J | 2021.03 | 6B | eleuther.ai | Inglés | |
GPT-NeoX | 2022.02 | 20B | eleuther.ai | Inglés | |
OPT | 2022.05 | 125M-175B | Meta | Principalmente inglés, soporte débil para otros idiomas |
Observaciones
La relación entre otros modelos bien conocidos en la comunidad y estos modelos básicos se muestra en la siguiente tabla.
Modelo Básico | Nombre del Modelo | Método de Afinación | Publicador | Introducción |
---|---|---|---|---|
LLaMA | Alpaca | Afinación de parámetros completos | stanford | Modelo afinado de LLaMA, afinado utilizando text-davinci-003 de OpenAI |
Alpaca-LoRA | Afinación ligera | tloen | Igual que Alpaca, pero afinado utilizando Lora | |
Vicuna | Afinación de parámetros completos | LMSYS Org | Modelo afinado de LLaMA, entrenado y afinado utilizando diálogos compartidos por usuarios recopilados de ShareGPT | |
Koala | Afinación de parámetros completos | berkeley | Modelo afinado de LLaMA | |
WizardLM | Afinación de parámetros completos | WizardLM | Modelo afinado de LLaMA, se centra en la afinación de instrucciones complejas | |
GPT-J | dolly-v1 | Afinación de parámetros completos | databricks | Modelo afinado de GPT-J, se centra en la afinación de instrucciones |
gpt4all-j | Afinación de parámetros completos | nomic.ai | Modelo afinado de GPT-J | |
pythia | dolly-v2 | Afinación de parámetros completos | databricks | Modelo afinado de pythia, se centra en la afinación de instrucciones |