今年,以数字化技术为核心的 " 新基建 " 首次被写入政府工作报告,引起了人们广泛关注。新基建包含5G 基站、特高压、工业互联网、城际高速铁路和城际轨道交通、新能源车充电桩、人工智能、大数据中心七个方向。其中,数据中心既是新基建的重要组成部分,也是新基建发展的核心IT基础设施,对数字经济的腾飞起到底层支撑作用。
京东智联云硬件研发总监陈国峰曾任开放数据中心委员会“天蝎”项目的总架构设计师,是国内第一批参与整机柜实践过程的行业“老兵”,日前作客E企研究院主办的“开放新基建”访谈节目,从超大规模数据中心角度分享了当前 IT 发展新趋势对数据中心基础设施的影响与京东智联云的下一代服务器前沿技术。
新场景对数据中心计算能力提出的新挑战
今年受新冠疫情影响,人们的工作和生活方式都发生了巨大变化,居家办公成为常态,很多事情都被迫搬到了线上,如视频会议、线上网课、直播卖货等等。幸运的是以互联网、云计算为主的数字化技术为人们带来了巨大助力,让社会没有因为疫情影响而停滞。
人们对视频的依赖导致视频的数据量呈现指数级增长,这对提供视频服务的服务商基础设施提出了巨大挑战。无论是计算、存储、网络传输带宽,都提出了更高要求。数据中心里最显赫的主角莫过于提供强大算力的服务器,面对应用场景的多样化,服务器的需求也出现了层次化。
过去很长一段时间里,传统x86 通用服务器基本上能满足大部分计算的诉求,但在视频、AI 领域大火之后,场景化的计算越来越多,某些场景对计算能力或是计算特性都会有固定的要求。由于这类场景是固化的,而且有足够庞大的市场,再用通用计算去满足效率上就不一定是最佳的。
这种情况下,催生出了一个新概念——“多元计算”。为了满足新应用场景的需求,更适合编解码、视频处理、AI 的计算单元被开发出来,市场中出现了更多的参与者去做相关的处理器。用专用芯片肯定会比通用芯片效率更高,这也是未来技术发展的必然方向。
在专用芯片发展如火如荼之时,通用芯片却遭遇了前所未有的挑战。过去,受摩尔定律影响,每 18 个月晶体管的密度就会翻一番,但受制程工艺的制约,现在已经很难继续维持下去,芯片行业进入后摩尔定律时代。
后摩尔时代,数据中心如何解决冷与热的问题?
既然单核运算性能已无法继续大幅提升,芯片制造商们纷纷开始采用多核方式提高性能。AMD 提供了 64 核128 线程处理器,ARM 提供 80 核的 Ampere 处理器。在工艺受限的情况下,要想实现计算能力的叠加,就只能靠堆核。但核数增加后内存通道也会相应增加,这就意味着单台服务器的整体功耗会成倍增长。
以前一台服务器的功耗整体上 300 瓦就足够了,现在可能一个 CPU 就接近 300 瓦,功耗的上升对于系统散热设计的挑战越来越大。经过我们的分析,1U 服务器能给 CPU 散热的极限就是这个 CPU 的功耗不能超过 250 瓦,一旦 1U 的空间里处理器功耗超过这个值,风冷就很难满足散热需求,某种程度上散热已经制约了服务器和数据中心的发展。
京东智联云在过去一年里做了大量研究,认为在目前情况下,Cold Plate方式是最经济最实用的散热方式。在京东智联云推出的下一代服务器架构中,通过风液混合散热的方式解决功率密度的问题。它和其他的浸没式液冷方案不太一样,不会让 CPU 直接去接触这些液体,而是通过Heat Sink的方式来传导。
除了用液冷方式解决散热,很多厂商还考虑过定制的整机柜解决方案。长期以来,包括谷歌、脸书以及国内的BATJ等在内的顶级互联网厂商,经常采用整机柜甚至模块化数据中心,目的就是追求系统效率的最大化。
整机柜服务器自概念被提出至今已经历了 3 个阶段:
第一阶段是概念炒作阶段;
第二阶段是落地标准阶段,国内对整机柜服务器的理解统一到天蝎的设计,国外统一到 OCP(Open Compute Project)标准。两种标准对整机柜服务器的产品形态都是一致的,空间都是 21 英寸 1U,希望给 IT设备提供更多的内部空间;
第三阶段是云时代,云的本质是强依赖基础设施的,只有成本足够低,云的竞争力才会好,整机柜服务器的关注点也自然放到了生态和经济效益上。
21 英寸 1U 设计有一个前提是当时的服务器单机功耗还不高,今天再回头看这个设计的局限性就变得越来越大。如果 CPU 功耗已经达到 200 瓦以上,1U 空间的散热效率就会变得极低。
早年整机柜的设计初衷就是降低 TCO,因此一切前提都是围绕着 TCO 展开的。单个机柜的功率密度不可能无限大,那么在单个机柜固定的情况下,是通过多塞机器还是提高单机性能来实现最优 TCO 呢?很明显在目前散热效能极低的情况下,多塞机器对于整个机柜的 TCO 来说是极不合适的。相比之下,2U 服务器的计算能力要远远大于 2 台 1U 服务器,可以保证更好的散热效能,反而会获得更好的整体 TCO。
京东智联云下一代服务器设计思考
为了面向更广泛的市场,针对整机柜的改进必不可少。结合用户的需求及痛点,京东智联云提出以“标准化、模块化、弹性化”实现全场景灵活部署的设计理念,更好地支撑用户在云计算、大数据时代的业务运营和增长。
京东智联云的下一代服务器主流应用都将回归到 2U,整机柜方案采用 42U 19 英寸标准机柜为设计单位,节点独立散热,通用性强,实现了整机柜和标准机架服务器任意切换。这样带来的好处是高灵活性,因为用户的需求不可预测,用户场景复杂,租用机房较多,每个机房基础设施条件不一样,同时业务类型复杂,资源调配迁移需求比较多,而目前主流的整机柜与通用机相比,无论从 21 英寸的尺寸还是集中的散热方式都有很大的差异,造成了整机柜部署的局限性,很难实现灵活迁移,混合部署。19 英寸可以最大程度满足不同场景的需求。
当功率密度提高之后,风扇转速就会更高。由于硬盘的存储密度不断上升,对于外部环境的振动、噪声的敏感度就越来越高。因此,京东智联云在设计上针对硬盘和风扇振动采用了“硬盘前置,风扇后置”的系统架构,最大程度拉开风扇和硬盘之间的距离,有效降低了震动对硬盘的影响。
同时,京东智联云下一代服务器采用节点前 IO 设计,机柜后部无任何线缆,所有运维工作均可在冷通道进行,单边维护效率更高,环境更友好。同时通过模块化设计,可实现前后 IO 灵活切换,集中供电和单机供电模式灵活切换。
京东定制服务器的历史,最早可以追溯到2014年,当时京东与英特尔合作,设立了创新实验室,定制了两款面向电商行业的双路服务器。早期的尝试更多是一种基于自身业务的“投石问路”,而今对于京东智联云来说,下一代服务器交付的不再只是软件和基础设施,而是一整套服务器交付的标准和落地。京东智联云将会围绕着下一代服务器打造公有云、私有云、混合云、全方位的云产品。