文字类AIGC模型
目前存在非常多的文字类模型,一部分是基于现有的大模型进行微调的产物,一部分是各个公司从头开始训练的基础模型
知名基础模型
基础模型 | 发布时间 | 模型大小 | 发布者 | 语言 | 特点 |
---|---|---|---|---|---|
LLaMA | 2023.03 | 7B~65B | Meta | 主要为英文,对其他语言支持较弱 | |
MPT | 2023.05 | 7B | mosaicml | 主要为英语,对其他语言支持较弱 | 可商用,有长上下文支持 |
ChatGLM | 2023.03 | 6B | THUDM | 中文和英文 | |
Cerebras-GPT | 2023.03 | 1.3B~13B | cerebras | 主要为英文,对其他语言支持较弱 | |
rwkv-4-raven | 2023.04 | 1.5B~14B | BlinkDL | 多个版本,不同版本对不同语言支持不同 | 非 transforms 结构 |
OpenFlamingo | 2023.03 | 9B | LAION | 主要为英语,对其他语言支持较弱 | 多模态,有图片支持 |
StableLM | 2023.04 | 3B~7B | stability.ai | 主要为英语,对其他语言支持较弱 | |
Bloom | 2022.10 | 1B~176B | bigscience | 59种语言 | |
RedPajama-INCITE | 2023.05 | 3B~7B | together | 主要为英语,对其他语言支持较弱 | |
pythia | 2023.03 | 1B~12B | eleuther.ai | 英语 | |
GPT-Neo | 2021.03 | 125M~2.7B | eleuther.ai | 英语 | |
GPT-J | 2021.03 | 6B | eleuther.ai | 英语 | |
GPT-NeoX | 2022.02 | 20B | eleuther.ai | 英语 | |
OPT | 2022.05 | 125M-175B | Meta | 主要为英语,对其他语言支持较弱 |
备注
社区内比较有名的其他模型和这些基础模型的关系如下表
基础模型 | 模型名称 | 微调方法 | 发布者 | 简介 |
---|---|---|---|---|
LLaMA | Alpaca | 全参数微调 | stanford | LLaMA的微调模型,使用OpenAI的text-davinci-003进行微调 |
Alpaca-LoRA | 轻量化微调 | tloen | 和Alpaca相同,不过采用了Lora进行微调 | |
Vicuna | 全参数微调 | LMSYS Org | LLaMA的微调模型,从ShareGPT 收集的用户共享对话进行训练微调 | |
Koala | 全参数微调 | berkeley | LLaMA的微调模型 | |
WizardLM | 全参数微调 | WizardLM | LLaMA的微调模型,侧重于复杂指令微调 | |
GPT-J | dolly-v1 | 全参数微调 | databricks | GPT-J的微调模型,侧重于指令微调 |
gpt4all-j | 全参数微调 | nomic.ai | GPT-J的微调模型 | |
pythia | dolly-v2 | 全参数微调 | databricks | pythia的微调模型,侧重于指令微调 |