跳到主要内容

文字类AIGC模型

目前存在非常多的文字类模型,一部分是基于现有的大模型进行微调的产物,一部分是各个公司从头开始训练的基础模型

知名基础模型

基础模型发布时间模型大小发布者语言特点
LLaMA2023.037B~65BMeta主要为英文,对其他语言支持较弱
MPT2023.057Bmosaicml主要为英语,对其他语言支持较弱可商用,有长上下文支持
ChatGLM2023.036BTHUDM中文和英文
Cerebras-GPT2023.031.3B~13Bcerebras主要为英文,对其他语言支持较弱
rwkv-4-raven2023.041.5B~14BBlinkDL多个版本,不同版本对不同语言支持不同非 transforms 结构
OpenFlamingo2023.039BLAION主要为英语,对其他语言支持较弱多模态,有图片支持
StableLM2023.043B~7Bstability.ai主要为英语,对其他语言支持较弱
Bloom2022.101B~176Bbigscience59种语言
RedPajama-INCITE2023.053B~7Btogether主要为英语,对其他语言支持较弱
pythia2023.031B~12Beleuther.ai英语
GPT-Neo2021.03125M~2.7Beleuther.ai英语
GPT-J2021.036Beleuther.ai英语
GPT-NeoX2022.0220Beleuther.ai英语
OPT2022.05125M-175BMeta主要为英语,对其他语言支持较弱

备注

社区内比较有名的其他模型和这些基础模型的关系如下表

基础模型模型名称微调方法发布者简介
LLaMAAlpaca全参数微调stanfordLLaMA的微调模型,使用OpenAI的text-davinci-003进行微调
Alpaca-LoRA轻量化微调tloen和Alpaca相同,不过采用了Lora进行微调
Vicuna全参数微调LMSYS OrgLLaMA的微调模型,从ShareGPT 收集的用户共享对话进行训练微调
Koala全参数微调berkeleyLLaMA的微调模型
WizardLM全参数微调WizardLMLLaMA的微调模型,侧重于复杂指令微调
GPT-Jdolly-v1全参数微调databricksGPT-J的微调模型,侧重于指令微调
gpt4all-j全参数微调nomic.aiGPT-J的微调模型
pythiadolly-v2全参数微调databrickspythia的微调模型,侧重于指令微调