ERICA最新番号 Llama3.1测验平均3小时故障一次,H100万卡集群好脆弱
西风 发自 凹非寺量子位 | 公众号 QbitAIERICA最新番号
每3个小时1次、平均1天8次,Llama 3.1 405B预测验老出故障,H100是罪魁罪魁?
最近有东谈主从Meta发布的92页超长Llama 3.1论文中发现了华点:
Llama 3.1在为期54天的预测验技巧,资格了共466次任务中断。其中唯有47次是接头内的,419次纯钟情外,偶然中78%已说明或怀疑是硬件问题导致。
而且GPU问题最严重,占了58.7%。
Llama 3.1 405模子是在一个含16384块Nvidia H100 80GB GPU集群上进行测验的。虽说针对大鸿沟系统有句老话:唯独细则的便是会出故障。
但这一问题还是引起不少网友存眷。
延缓速率,check一下居品吧。
老出故障,咋整?
具体来看,在419次偶然中断中,148 次(30.1%)是由各式GPU故障(包括NVLink故障)引起的,72次(17.2%)不错具体到是由HBM3内存故障引起。
鉴于H100的700W高功耗和热应力,出现这样的抑止也并不料外。
故道理的是,54天内唯有两次是CPU出现了故障。
除了GPU外的另一半故障由稠密身分导致,比如软件Bug、相聚电缆等等。
不外最终,Llama 3.1团队保握了超90%的有用测验时间。唯有三起故障需要东谈主工大幅介入,其余的都自动化处理了。
那么他们是若何纰漏的?ERICA最新番号
为了加多有用测验时间,Llama 3.1团队默示减少了任务启动和checkpointing时间,并种植了一些器具来快速会诊和处置问题。
其中叶俗使用了PyTorch的内置NCCL flight recorder(Ansel等东谈主2024年种植),是一个不错把集体元数据和堆栈追踪记录到一个轮回缓冲区里的功能,这样就能快速会诊大鸿沟卡顿和性能问题,卓绝是跟NCCLX斟酌的问题。
用这个器具,团队能有用记录每次通讯事件和每个集体操作的握续时间,在NCCLX Watchdog或Heartbeat超常常还能自动导出追踪数据。
还不错凭据需要,通过在线建立改动(Tang等东谈主2015年提倡的法式)来选用性地启用一些狡计量更大的追踪操作和元数据相聚,而不需要再行发布代码或重启任务。
团队默示,在大鸿沟测验中调试问题很复杂,因为相聚同期使用了NVLink和RoCE。通过NVLink传输数据时常是通过CUDA内核发出的加载/存储操作来完成的,要是费力GPU或NVLink讨好出了问题,时时发扬为CUDA内核里的加载/存储操作卡住了,却不会复返明确的空虚代码。
而NCCLX通过与PyTorch邃密无比相助,进步了故障检测和定位的速率和准确性,让PyTorch大约造访NCCLX的里面景况并追踪干系信息。
天然无法十足幸免NVLink故障导致的卡顿,但系统会监控通讯库景况,在发现卡顿时自动超时。
此外,NCCLX还会追踪每次NCCLX通讯的内核和相聚活动,并在失败时提供NCCLX集体操作里面景况“快照”,包括通盘品级之间已完成和待处理的数据传输。团队通过分析这些数据来调试NCCLX的膨胀问题。
有时,硬件问题可能导致某些部分天然看起来还在出手,但速率变慢,这种情况很难被发现。即使唯有一个部分变慢,也可能拖慢数千个其它GPU的速率。
为此团队种植了一些器具,不错优先处理某些可能有问题的进度组的通讯。时常只需要窥察几个最可疑的对象,就能有用找出那些变慢的部分。
团队还不雅察到了一个道理的景观——环境身分对大鸿沟测验性能的影响。在测验Llama 3.1 405B时,微辞量会凭据一天中时间的不同而有1-2%的变化。这是因为中午温度较高,影响了GPU动态电压和频率调度。
在测验进程中,数万个GPU可能会同期加多或减少功耗,比如在通盘GPU恭候checkpointing或集体通讯完成时,或者在通盘测验任务启动/关闭时。这种情况发生,可能导致数据中心的瞬时功耗波动达到数十兆瓦,对电网来说是个不小的训练。
团队临了还默示:
跟着将来更大的Llama模子膨胀测验鸿沟,这一挑战将握续存在。
东南亚呦AI集群问题正待破壁
Meta2022年头次共享了其AI盘考超等集群(RSC)的醒目信息,那时领有16000个NVIDIA A100 GPU,匡助其构建了第一代AI模子,在Llama初代和Llama 2种植中都流露了要紧作用。
△来自Meta
本年三月份,Meta又公开了24576个NVIDIA H100 GPU的AI集群,维持Llama 3及之后模子。
更是定下了到本年年底加多350000个NVIDIA H100 GPU的盘算推算,算作举座算力的一部分(举座算力近600000个H100 GPU)。
这样大的鸿沟,emmm可不是个握续性的挑战嘛。天然,大鸿沟AI集群会给模子测验变成故障是一个有些“邃古”的问题,很早之前就有干系盘考。
H100自身什么含金量无需多言。
在前年最新MLPerf测验基准测试中,英伟达H100集群,横扫八项测试,一王人创下新记载,何况在大谈话模子任务中发扬尤为杰出。
11分钟内测验一遍GPT-3,8秒训完BERT。在大谈话模子任务中,H100集群的加快性能靠近线性增长。即跟着集群处理器数目加多,加快遵循也险些同比加多。
意味着在集群内GPU之间的通讯遵循极度高。
除此除外,H100还完成了推选算法、CV、医学图像识别以及语音识别等任务,是唯独一个插足8项测试的集群。
不外,SemiAnalysis一个月前的一篇著作指出,构建大鸿沟AI算力集群极度复杂,远远不仅仅有莫得钱买卡的事。
在电力、相聚联想、并行、可靠性等好多方面都濒临局限。
参考结合:[1]https://ai.meta.com/research/publications/the-llama-3-herd-of-models/[2]https://engineering.fb.com/2024/03/12/data-center-engineering/building-metas-genai-infrastructure/[3]https://www.semianalysis.com/p/100000-h100-clusters-power-network