面向大模型的存储加速方案设计和实践

这是AI大底座系列云智公开课的第三期内容。前两期我的两位同事已经向大家介绍了高性能网络和GPU容器虚拟化的相关内容。今天我们把目光聚焦在存储方向，一起来看看面向大模型的存储加速方案的设计和实践。

今天将从以下三个方面来展开这次分享：

介绍大模型全流程对存储带来的全新挑战；

深入大模型全流程各个环节，看一看有哪些具体的存储问题以及对应的解决思路；

分享百度沧海·存储的加速方案及实践经验。

一、模型对存储的全新挑战

从过去的经典AI，到今天人人谈论的大模型，我们看到AI模型的参数规模呈现出指数级的爆发增长。一方面，大模型的应用效果开始给大家带来非常大的惊喜，另一方面，也给整个基础设施带来巨大的挑战。

其一，模型规模大，训练时间长。一个B参数的模型，万卡同时训练仍然需要长达22天。这就要求基础设施提供超高的性能和超长时间的稳定。

其二，大模型要结合具体应用才能发挥巨大的威力。大家今天谈论大模型，不再只停留在模型本身，更多的