大模型时代：华为让以太网进化，打通数据运力动脉

浪浪沙 · 发表于 2023-10-8 19:50:37

　　随着大模型时代的到来，算力需求呈现出指数级增长。据统计，2012年到2019年AI训练算力平均每100天翻倍，而GPU单卡算力则需要2-3年增长一倍。GPU卡集群成为应对算力需求高速增长的方案，随着AI模型进入万亿参数模型时代，GPU卡的数量也提高到万卡规模，据了解，OpenAI使用25000张A100 GPU训练1.8万亿参数的GPT4。

　　正是在AI计算集群支撑下，超万亿参数大模型的高效训练成为可能，大模型加速进入各行各业。在最近举行的华为年度最重要的ICT盛会上，“大模型”成为最重要的关键词，华为从算力、运力、存力等多个维度全线出击，使能百模千态，赋能千行万业，加速行业智能化。

　　其中，华为最令人关注的重磅创新之一，来自数据中心网络，华为对以太网进行进化，研发出超融合以太技术，正是这项创新，让数据中心网络释放出最大潜力，使得上万张AI板卡高效协同，成为万亿参数大模型时代的坚固基石。

　　为数据中心网络装上智慧调度大脑

　　想象一下，一个超大型机场如果没有调度系统，多条跑道同时起飞降落飞机的时候会发生什么?

　　这样的景象其实也发生在数据中心。随着AI进入大模型时代，计算也进入分布式训练的时代，即计算任务以数据并行、流水线并行、张量并行等分布式并行方式分配到多台服务器上，以加快模型训练速度。这个时候，多台服务器之间就需要同步参数、梯度、中间变量，在大模型训练时，单次参数同步量高达100MB-几GB的量级。如何协作数万张处理器，保证不随着算力规模的增大而效率大幅降低，避免出现1+1<2的效果，是一大问题。

　　并行计算下，网络负载均衡就是其中的关键。无论是数据并行，还是流水线并行，或是张量并行，多机之间都需要通过多次AllReduce集合通信操作来传递计算结果。AllReduce集合通信的特征是多打一，流数少、单流带宽大，同一时间均是点到点通信，其完成需要所有点对点通信都成功完成。这时候就存在“木桶效应”，木桶中盛的水由最短的木板所决定，而AllReduce的完成时间，也由其中最慢的点对点通信时间所决定。

　　正是因为这种木桶效应，智算数据中心网络会遇到网络负载不均衡问题，如何进行链路的负载均衡成为关键。在没有实现全局负载均衡的网络中，整体通信效率仅在30%-56%之间，这意味着有一半以上的网络性能没有被高效利用，同样，这意味着整个AI集群的算力效率只有不到一半。因此，AI集群网络的吞吐效率将直接影响整个智算中心集群的效率。

		自动登录	找回密码
密码			立即注册

[软文] 大模型时代：华为让以太网进化，打通数据运力动脉

站长推荐 /1