WEI Leping:国内智能计算中心中GPU的平均使用率不
作者: 365bet官网 点击次数: 发布时间: 2025-04-26 11:14

在今天举行的“ 2025年云网络智能联盟会议”中,SNA促销委员会名誉主席,中国电信科学技术委员会的前主任Wei Leping向“受大型模型启发的智能计算网络的发展趋势发表了重要的演讲”。他说,明智的计算中心无处不在,在中国有280多个,但是GPU的使用率不熟悉,树木和饥饿的人会死亡,平均不到30%。机器内总线的带宽与机间网络的带宽不符,并且机间网络带宽非常狭窄,计算的效率也不高。机器内总线体系结构的开放性,兼容性和可扩展性并不完美。缺乏有用的商业模式。 Wei Leping说,那些生成人工智能的竞技场技术主要包括以太网,IB(Infiniband),芯片光学互连,PCIE,CXL(计算机快速链接),OCS(光纤开关)等。当前有三个改进:ROCE是基于以太网的RDMA。允许直接访问远程节点内存,减少数据传递延迟并减少CPU使用。适合Genai应用的需求;以太网损失进一步增强了基于现有以太网的高级流量控制,改进的拥堵处理以及优化的哈希算法等新技术,并大大提高了性能,但是长时间的尾巴延迟相对较高(5-10US),这在IB 2000GPU中无法捕获;超级以太网联盟(UEC)是IEthernet改善了从物理层,链路层,层输送和软件层的以太网,具有良好的负载,更好地利用网络和较短的延迟,满足Genai和HPC的需求,同时保持以太网生态系统的益处,希望能够充分克服IB的成本成本。它预计将于2026年开始。IB是计算机网络用于高计算性能,具有高宽带特性,高可扩展性,高可靠性,非阻滞性和超低延迟(1US)。但是,它需要使用专用的硬件IB开关和IB网卡,它们昂贵,限于可扩展性,弱工业生态,并且非常封闭,并且仅由NVIDIA进行监管。最适合具有大型型号的风景中的高性能计算和高质量的酱汁。此外,芯片光学互连技术并不成熟,并且缺少标准。预计将在2026年之前有产品; PCIE是计算机扩展总线技术。 2025年,计划发布PCIE7.0版本,希望提高128GT/s的功能; CXL是一项新的界面和高速互连技术协议,该方案在PCIE串行总线上具有体系结构。从长远来看,CXL将导致现有服务器体系结构的变性,包括处理和MEmory在各种物理模块中,启用查询和资源共享,并适应大型集群培训的需求以及高性能计算的需求; OCS是替换纤维通道作为移动颗粒的巨大能力,并且在很大程度上以近中和中等为AIDC脊柱层的AOF AOF AOF,从长远来看,进一步扩大了外部。 Wei Leping还提到了在智能计算中进行培训的思考,以使大型模型远离。在市场需求水平上,闲置智能计算中心的在线计算资源使用将有所改善。如果可以通过网络互连来开发大量逻辑智能计算池以适应不断增长的大规模训练,则面对大量具有低利用率的小型智能计算中心,预计它将显着提高空闲智能计算源的使用率。随着未来的发展,跨域培训是不可避免的课程。根据统计数据随着相应GPU芯片的计算强度仅增加2-4倍,E型模型参数增加了10个时间1-2年,这比模型的模型增长率小。随着模型大小的增加,单个生物的计算,功率和空间来源的强度最终将受到限制。可能有必要将许多智能计算中心连接到公园,甚至更大,以产生极其逻辑的智能计算池源,以便合并的培训可以支持超大型模型的训练。至于与特定业务和访问情况有关的推理,需要在整个领域实施。他说,在大型模型中,智能计算对培训的挑战,他说,在复杂的商业情况下,他面临着与具有不同功能和性能不同的异质GPU合作的挑战EV和不同的网络方法,不同的模型和不同的参数。在技术层面上,带宽融合存在问题。没有场景的带宽是通用的,并且期待着,并且很快就会部署,但是成本太高了。当收敛率为4-8时,带宽成本可以降低10%,但它仅适用于将模型分为特定业务情况的特定方法,并且没有大学并期待。同时,还存在性能和性能问题。拉动后,不可避免地要应对许多挑战,例如失去数据包,抖动,甚至中断和挫败感,以及许多严格的Kinrequires R0CE网络功能和性能。在统一的管理,运营和维护级别,组织和制造过程的现有固体结构不适合快速扩展逻辑统一的非现场智能计算CENTERS,有必要改变和升级系统,劳动过程和监视平台的管理和维护的现有操作。