DeepSpeed v0.3.0 发布了。DeepSpeed 是微软开源的深度学习优化库,它可以在当前一代的 GPU 集群上训练具有超过千亿个参数的 DL 模型,使分布式训练变得容易、高效和有效。
新特性
- DeepSpeed:面向所有人的极限模型训练
- 通过 DeepSpeed 稀疏注意力提高 10 倍的序列长度和 6 倍的执行速度
- 使用管道并行性训练数万亿个参数
- 通过 1 位 Adam 最多可减少 5 倍的交流和 3.4 倍的训练
- 通过 ZeRO-Offload 在单个 GPU 上进行 10 倍于大型模型的训练
改进
- 重构代码库,以更清楚地区分 ops/runtime/zero 等
- 条件运算构建
- 并非所有用户都必须花时间构建 transformer kernels,如果他们不想使用的话
- 为了确保 DeepSpeed 在多个环境中可移植,某些功能需要唯一的依赖关系,但并非每个人都能够或想要安装
- DeepSpeed 启动器除了支持 pdsh 外还支持其他后端,例如 Open MPI 和 MVAPICH
更新说明:https://github.com/microsoft/DeepSpeed/releases/tag/v0.3.0
(文/开源中国)