课程 ID: 17554
描述:
案例背景:
这个session我将介绍Databricks开源的通用大型语言模型DBRX,包括如何使用3072块Nvidia H100对其进行训练。DBRX的性能超越了目前的开源模型如LLaMa2-70B, Mixtral, Grok-1,以及闭源模型如GPT-3.5, 并且有能力与Gemini 1.0 Pro竞争。
解决思路:
DBRX是使用fine-grained MoE架构训练的具有132B总参数的通用大语言模型。
基于12T token的文本和代码进行训练。
使用Databricks的技术栈端到端的进行数据准备,训练,模型管理,部署
成果:
DBRX Instruct 是在综合基准测试、编程和数学基准测试以及 MMLU 上的领先所有开源模型。它在标准基准测试上超越了所有经过Chat或Instruction微调的模型;
对于闭源模型,DBRX Instruct 超越了 GPT-3.5,并且与 Gemini 1.0 Pro 和 Mistral Medium 有竞争力