开箱即用的 8 到 512 卡 LLaMA2 训练、微调、推理方案,对 700 亿参数训练加速 195%,并提供一站式云平台解决方案
,极大降低大模型开发和落地应用成本。
LLaMA2 训练加速 195%
LLaMA2 的全流程方案,并具备高可扩展性
,支持从 70 亿到 700 亿参数的模型,
从 8 卡到 512 卡都可保持良好的性能
。
512 张 A100 40GB 预训练 LLaMA2-70B
为例,DeepSpeed ZeRO3 策略因显存不足而无法启动,仅能通过速度衰减较大的 ZeRO3-offload 策略启动。而 Colossal-AI 则因卓越的系统优化和扩展性,仍能保持良好性能,训练提速 195%。
新的异构内存管理系统 Gemini
和
高性能算子
(包括 Flash attention 2)等系统优化。新 Gemini 提供了
高可扩展性,高鲁棒性,高易用性
的接口。其 Checkpoint 格式与 HuggingFace 完全兼容,减小了使用和转换成本。其对于切分、offload 等的设置更加灵活且易用,能够覆盖更多硬件配置下的 LLaMA-2 训练 / 微调任务。仅需数行代码即可使用:
from colossalai.booster import Booster
from colossalai.booster.plugin import GeminiPlugin
plugin = GeminiPlugin ()
booster = Booster (plugin=plugin)
model, optimizer, train_dataloader, criterion= booster.boost (
model, optimizer, train_dataloader, criterion)
ShardFormer 多维细粒度并行
提供了开箱即用的多维并行和算子优化的能力
,仅需数行代码即可使用,在单机 / 大规模集群上都能提供良好的性能。
from colossalai.booster import Booster
from colossalai.booster.plugin import HybridParallelPlugin
from transformers.models.llama import LlamaForCausalLM, LlamaConfig
plugin = HybridParallelPlugin (tp_size=2, pp_size=2, num_microbatches=4, zero_stage=1)
booster = Booster (plugin=plugin)
model = LlamaForCausalLM (LlamaConfig ())
model, optimizer, train_dataloader, criterion = booster.boost (
model, optimizer, train_dataloader, criterion)
-
Flash attention 2
-
Memory efficient attention (xformers)
-
Fused Normalization Layer
-
JIT kernels
云平台大模型一站式解决
无代码训练个性化私有模型,并将训练好的模型一键部署
。相关的应用都经过 Colossal-AI 团队精心优化,得益于算法和系统的双面优化,能大大降低模型训练以及部署的成本。
参考链接:https://www.hpc-ai.tech/blog/70b-llama2-training
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...