为了给用户提供高质量的云服务,许多大型互联网企业,如微软、谷歌、亚马逊和阿里巴巴等,在全球修建了许多数据中心。在数据中心内部,数以万计的服务器通过高带宽(10-100Gbps)低时延(0-100us)的数据中心网络(DataCenterNetwork,DCN)相连。数据中心内运行着很多对延迟敏感的实时应用,比如电商零售、搜索、社交网络等。这些实时应用的用户请求需要尽快得到响应,而较高的响应延迟将严重影响用户体验,降低公司的运营收入。
数据中心网络流量以其突发性著称,当流量瞬间爆发时,极易在流量接收端产生拥塞(端点拥塞)。不恰当的路由也会导致网络内部流量不均衡,从而产生内部拥塞(链路拥塞)。网络拥塞般可以通过负载均衡机制来解决。一旦发生拥塞,流量的网络延迟和吞吐量都会受到影响,从而造成较长的应用响应时延和更差的用户体验。传统数据中心的内部网络是有损网络(lossynetwork),网络发生严重拥塞时交换机可以直接丢弃数据包。由于数据中心交换机的缓冲区较小,加之数据中心流量的突发性特点,拥塞丢包在数据中心十分常见。丢包的后果会造成较高的重传时延,从而影响实时应用的性能。学术界与工业界都十分关注传统有损数据中心网络的拥塞问题,采取了一系列拥塞控制机制,以降低网络中的排队和拥塞丢包问题。即便如此,这些机制也很难完全避免拥塞丢包。著名的DCTCP协议在网络拥塞并不严重时可以有效控制交换机队列长度,但是当出现大量并发连接时,DCTCP仍难以避免交换机缓冲区的溢出。为了彻底解决拥塞丢包问题,许多公司已经尝试在数据中心部署无损网络(losslessnetwork)。
编辑:Harris