在人工智能、物联网高速发展的今天,一切数据的计算和应用都离不开底层数据中心的支撑。如果把数据中心比作是一只数字军队,那数据中心机房机架上的一台台商业服务器就是前线的士兵。士兵的强弱直接影响军队的战斗力,服务器也是一样。底层服务器的创新设计,将最终促进数据中心的变革,提升上层应用的体验。
作为国内互联网巨头,京东在自建数据中心与自研服务器方面积累了深厚的经验。在近期举办的《面向全场景部署模块化设计,京东智联云自研服务器探索》技术公开课上,来自京东智联云IDC与基础运维部的技术专家王世锋与英特尔云计算架构师周超,针对IDC现有关于服务器硬件相关的难点和痛点,分享了京东智联云最新自研下一代服务器的设计理念、技术拆解、数据指标等干货。以下为公开课核心内容:
四大原因,掣肘现代化数据中心的变革之路
各种大大小小的数据中心已存在数十年,但随着技术的不断发展,数据中心和服务器的难题与痛点也层出不穷。首先,目前常用的两种服务器都存在问题。在通用的2U机架式服务器中,硬盘前置,IO后置,提供标准电源供电模式,无法实现电源集中管理。另一种是现在很多互联网公司在使用的电源集中管理服务器,支持集中供电,但IO前置导致与通用服务器无法兼容。以上两种服务器都存在的一定的局限性,影响了数据中心服务器的迁移和灵活部署。
除了服务器自身设计,现有数据中心的最硬性指标PUE(Power Usage Effectiveness,数据中心总能耗 / IT设备能耗 )一直偏高,均在1.4-3之间。本世纪初或者上个世纪建设的机房,没有做冷热通道隔离,机房设备简陋,PUE值更高,甚至超过3。单位功耗提供更高的算力和存储是数据中心一直追求的目标,在未来大规模部署的超大数据中心中,降低PUE将是重点需要解决的难题。
部署运维的笨重和繁琐也是掣肘数据中心的难点。现在服务器部署周期冗长,从拆包,上架,机柜内接线,平均每台服务器部署时间约1小时,每名运维工程师每天只能部署一个机架的服务器。在运维时,当前服务器设计都是前部硬盘、内置风扇、后端出线,更换风扇等硬件要全部拔线、服务器关机下架、开盖更换硬件,再次上架插线,操作繁琐。服务器的部署和运维效率低,没有实现智能化运维。
从效能角度,目前服务器采用高密度布局,但90%仍采用传统风冷对流,换热系数较低,随着服务器CPU功耗提升,风冷散热模式濒临极限。经过测算,下一代 Eagle Stream 350 W 的CPU在 1U/2U 服务器节点用风冷方式已经无法实现目标性能,数据中心未来需要探索采用冷板式液冷或者浸没的液冷方式。
京东智联云技术专家王世锋认为,未来的服务器将发展为根据不同客户需求进行定制,还会以整机柜方式交付以提高交付效率。同时数据中心将追求尽可能低的PUE数值以节省电力成本,IDC运维将向简单化、智能化、无人化方向转变。服务器整体能效将通过新的系统架构及新技术的导入使效能显著提升。数据中心冷却方式将由风冷向水冷模式转变。
全新架构自研服务器,兼具灵活与极致性能
作为经常需要承载和消化亿级数据流量的电商与互联网巨头,京东智联云在底层架构和服务器的探索也一直不停向前。
针对数据中心和服务器的现存问题,京东智联云以稳定可靠、可定制化、全场景覆盖、绿色节能、高性价比的设计理念,对服务器进行了全新架构设计,推出了业界第一款可以实现前后IO模块化切换的自研服务器,除了一体机交付,还可以通过整机柜交付,能够与传统服务器兼容,有效提升了数据中心灵活性。
在京东智联云自研模块化服务器的全新架构设计中,最大的亮点是前后两个IO模块设计,能够做到灵活切换前后IO,后IO可以适用于没有理线架而无法支持前端IO的标准机柜,灵活的模块化设计可适用于更多部署场景的数据中心。图中详细拆解展示了京东智联云自研模块化服务器的设计思路,前端放置硬盘、前IO模组,中间为主板,主板后为PCIE模组可外接PCIE卡,尾部放置风扇,或增加后IO模组。另外,服务器支持CRPS标准电源,同时也支持电源转化模组,方便整机柜电源集中管理。京东智联云自研模块化服务器还设有上水冷模组,可实现风冷+水冷的风液混合散热模式。
京东智联云邀请希捷对自研模块化服务器与传统服务器进行了对比测试,分别测试服务器在14T和20-24T机械硬盘下性能表现。14T机械盘的情况下京东智联云自研服务器性能接近百分之百,传统服务器只达到85%;20-24T的情况下,京东智联云自研服务器Performance loss为3%,性能达到97%,但传统服务器性能已降为7%,几乎为不可用状态,更无法满足对性能有较高要求的互联网企业。
硬盘的性能对整体服务器的影响颇深,那么影响硬盘性能的原因主要是服务器散热使用风扇的震动与切割空气产生的波动,其会降低硬盘性能表现;随着存储需求迅速增长,硬盘存储密度也在相应增加,导致硬盘磁密度增加,最终硬盘对外界的震动更敏感。而这两种现象则构成了阻碍行业发展的悖论。
而京东智联云打破悖论的方式主要有以下三点构成:
第一点是通过布局设计将风扇与硬盘物理隔离在服务器两端;
第二点是降低服务器温度。京东智联云自研服务器引入了业界新的液冷模块化方案,采用冷板式液冷散热器后,风扇转速降低,避免了对硬盘性能的影响;
第三点则是服务器采用了英特尔定制化CPU,目前已经从标准CPU、第一代定制进入到第二代定制CPU阶段,第二代定制CPU Icelake与和第一代相比,性价比再次提升30%
通过全新的架构设计,以及整机柜和一体机交付,京东智联云的自研服务器获得了以下六方面的性能优化:
全新架构设计,实现整机柜和标准服务器的兼容;
第一款可实现前置和后置 IO 的模块化服务器;
采用英特尔最新的定制化CPU,性能提升30%;
集中供电系统,效能提升8%;
创新的混合散热设计,散热效能提升50%;
交付效率提升5到10倍。
据介绍,京东智联云还将自身互联网大厂的技术实力推向企业市场,京东智联云硬件定制化服务HaaS一体机产品,集成空调、UPS、自研服务器、交换机和监控软件的整体解决方案。结合京东智联云自研的云产品,如AI一体机、PASS一体机、办公一体机等软硬结合的一体化解决方案,赋能京东智联云。未来,京东智联云自研服务器将成为京东数据中心的主力,同时也将会对外售卖,为更多客户解决服务器使用的痛点。
揭秘数据中心最热门的液冷技术
液冷是目前在数据中心领域非常热门的研究方向,因为目前数据中心机架服务器所有的器件功耗都在快速增长,导致传统的风冷散热方案不堪重负,而液冷比风冷散热系数更优异,会成为未来数据中心发展演进的必经之路。英特尔投入大量人力物力研发液冷的设计和技术实现,英特尔云计算架构师周超在技术公开课中介绍了京东在数据中心机架服务器的液冷设计和实践。
液冷的系统架构分为一次侧和两次侧,通过板式换热器完成“液体到液体” 内外交换。冷量控制单元CDU把冷液体bump推动到机架服务器内服通过冷板与CPU实现二次热交换,热液体带走机架内的热量回到CDU的板式换气器与外部液体交换热量,重新变为冷液体。
液冷系统的关键部件会根据系统的实际工况选择最适合的设计方案。CPU液冷板、内存液冷板、连接软管、节点内内液器、液漏监测等。其中最重要的是设计冷板的不同Fin和液体出入口设计实现最优的液冷方案,另外风冷和液冷可能共存的现状下,京东创新地设计了两者兼容的节点内分液器,液冷导管制管封装尺寸和风扇封装尺寸完全相同,在支持CPU功耗较低的主板时可采用风冷方案,如果系统CPU功耗较高,可以直接无缝升级到液冷方案,实现风冷和液冷模式的自由切换。
另外针对关键部件的漏液风险,京东选用液漏感应绳监测方案,感应绳布置在液冷系统的流道上。当任何一个地方发生泄露,传感器可以检测到电压阻抗的变化,来判断是否漏液。通过BMC监测,可以实时实现漏液的查询和上报,方便远程管理。