
近日炒股配资首选,在全球网络通信领域顶级会议ACM SIGCOMM2025上,阿里云基础网络技术8篇论文被主会录用。
论文研究成果涵盖基于大模型的网络根因定位、面向大模型训练的集合通信算法合成、面向智算的RDMA网络协议、网络配置流量形式化验证等多个重要领域。多项突破性成果的集中入选,标志着阿里云在人工智能时代的计算机网络和系统领域持续引领前沿技术。

SIGCOMM是ACM组织的国际网络通信旗舰会议,由ACM SIGCOMM组织于1970年发起,每年录取30-50篇论文(近三年略有增长),录取率20%以下。今年ACM SIGCOMM录取率更是创下近五年历史最低,录取率仅为16%。
其中,在此次入选的文章中,阿里云基础网络重点介绍三项和AI相关成果,总结了近一年多以来阿里云在支持大模型智算的网络协议设计、集合通信优化,以及基于大模型技术的网络智能化运维的技术创新实践与规模化部署。
// AliBABAStellar: A New Generation RDMA Network for Cloud AI
阿里云自主设计、研发、部署的面向智算场景的RDMA协议栈—Stellar RDMA网卡(RNIC)是支撑智算场景基础设施的核心组件,其虚拟化功能使云厂商可以为客户提供独立的虚拟环境,硬件加速RoCE输层协议保障了服务器间消息的高性能传输。但是当前的RNIC虚拟化方案依赖服务器内多个组件虚拟化环境配合,且存在虚拟化网卡支持数量有限,无法动态调整,虚拟化环境启动速度慢,以及RNIC均采用单路径方案等问题,无法满足日益增长的智算场景需求。
针对上述这些问题,阿里巴巴网络团队自主设计、研发、并大规模部署了面向智算场景的RDMA协议栈——Stellar,它具有轻量化、灵活、高性能的特点,可以支持最多64K个虚拟设备,1.5秒内创建虚拟网卡,安全容器启动速度提升30倍,支持256路径的RDMA协议可以最高将训练性能提升14%。
// SyCCL: Exploiting Symmetry for Efficient Collective Communication Scheduling

SyCCL利用GPU集群拓扑对称性,减小搜索空间,同时降低求解规模,实现快速和准确求解
当前主流的集合通信库(例如 NCCL 和 RCCL)的通信算法固定,无法适应多样化的网络拓扑和模型配置,导致带宽闲置或延迟增加,性能受限。针对上述集合通信算法固定导致性能差的问题,阿里云自主设计了高效的集合通信算法自动生成技术,通过对通信过程建模来自动生成最优算法,同时基于拓扑和流量的对称性减小搜索空间,将集合通信算法从传统的“固定算法选择”发展为“自动生成”,实现了集合通信从“难以适应不同拓扑和模型”到“高效自适应各种拓扑和模型”的突破。算法生成时间较已有微软 TECCL 降低 2-4 个数量级,集合通信性能提升多达 2 倍。
// Towards LLM-Based Failure Localization in Production-Scale Networks
大模型故障定位系统工作流程概览
在拥有成千上万台设备的大规模网络中,网络故障难以避免。网络工程师在处理故障时,往往要面对监控工具产生的海量告警数据,很难在短时间内理清事件的逻辑关联并准确定位故障设备,从而影响网络可靠性保障。为此,阿里云设计了基于大模型的故障定位系统BiAn,通过“监控数据源-设备-综合”分层推理、集成网络拓扑和告警时间线的多维度信息整合、持续提示词更新等技术,模拟网络工程师在处理故障时推理流程,理解监控告警、推理根因、识别故障设备。BiAN将故障定位平均耗时缩短20.5%,准确率较传统流程提高9.2%,实现了高效、准确、可解释的网络故障定位辅助。
阿里云智能集团副总裁、网络研发负责人蔡德忠表示:“AI大模型近年来呈加速发展趋势,大模型新算法,新范式,新架构推动了智算网络技术架构快速迭代。从追求极致性能的训练集群演进到高性价比的训推一体集群,从万卡规模演进到几十万卡;阿里云将端网融合的网络体系结构从RDMA高性能网络协议栈拓展到网络架构和通信库,实现了面向AI智算时代的新型网络架构,提供了可预期的网络性能炒股配资首选,有力支撑了通义大模型和阿里云PAI,灵骏智算产品。我们将持续把产业级技术难题和学术创新融合,为AI大模型时代下云计算基础设施发展做出贡献。”
海量资讯、精准解读,尽在新浪财经APP
同花配资提示:文章来自网络,不代表本站观点。