P4君 云深知网络
众所周知
GOOGLE走在了光交换的前列OCS已经成为独门秘制的杀手锏GOOGLEApollo:DCN网络游戏规则改变者
随着AI的火爆
Meta也盯上了光交换
OCS的问题是价格太贵端口太少
所以Meta另辟蹊径联合业界小伙伴尝试使用可重新配置的光交换机和配线架成果发表于20届USENIX网络系统设计与实现
大家提出了用于深度神经网络(DNN)训练的新型直连交换结构 TOPOOPT。它结合计算、通信和网络拓扑三个维度共同优化分布式训练过程。大家演示了 AllReduce 流量的可变性,并利用此属性为 DNN 训练作业构建高效的网络拓扑。然后,TOPOOPT 使用交替优化技术和名为 TotientPerms 的群论启发算法,结合并行化策略,找到最佳网络拓扑和路由计划。大家建立了一个功能齐全的 12 节点直连原型,它具有 100 Gbps 的RDMA转发功能。在真实分布式训练模型上进行的大规模仿真表明,与成本相近的胖树互联相比,TOPOOPT 可将 DNN 训练时间缩短 3.4 倍。
和所有校企联合都一样
Meta提供了生产集群的数据麻省理工和卡内基梅隆的劳力提供算法然后核心的光交换设备来自Telescent企业
从原理看 Telescent配线架 重新配置延迟很明显要远超OCS 估计这也是未能大规模应用的主要原因
想在数据中心部署需要结合计算提前规划路径 Telescent 企业的配线架,通过 "机械臂抓取传输侧的光纤并将其连接到接收侧的光纤 "来重新配置网络。机械臂由App控制,可以上下移动,将发射光纤与系统中任意位置的接收光纤连接起来。这为快速重新配置网络提供了所需的灵活性和弹性。
2015年Telescent企业还在中国申请了上述专利
Meta对开源生态是真爱,在网络探索上也是不遗余力。
第一波:Meta 最新网络架构研究可将大型语言模型训练网络成本降低 75%
第二波:Meta TOPOOPT对分布式训练的网络拓扑和并行化策略的协同优化
|