持续演进的高性能计算
高性能计算是利用超级计算机实现并行计算的一门技术。通过使用大量通用型计算节点搭建阵列式计算集群,替代单体超级计算机的方式,来实现并行计算加速,已成为高性能计算的通用方案。
传统的HPC平台
传统的HPC平台基于物理机或云主机,在此之上安装Slurm或PBS调度器实现集群管理和资源监控。对于新入局科学研究行业的企业和开发者、以及AI科学家而言,使用传统高性能计算平台可能会存在诸多问题:
需要采购高主频硬件、RDMA网络和高性能存储;
需要专业的IT运维搭建控制面、数据面、登录节点;
调度组件维护和升级;
SSH用户的文件权限管理;
适应业务动态调整集群资源分区;
存储服务磁盘容量监控、扩容;
用户作业配额管理;
集群满载时,新加入资源从采购到加入集群需要较长时间;
扩容的资源在集群负载不高时闲置,造成资源浪费;
除此之外,容器、微服务、声明式API构成的云原生基础设施,已成为构建AI应用的主流架构。主流人工智能平台和开源的AI框架/套件(如 Tensorflow、Pytorch、Paddlepaddle)支持部署至Kubernetes环境,提升AI模型开发、训练、推理效率。而传统的高性能计算平台目前仍缺乏对云原生底层设施灵活适配的方案和快速扩展的能力。
新一代HPC平台
京东云高性能计算HPC平台致力于降低企业基础设施建设和运维成本,使用户聚焦于高性能计算作业本身,低门槛快速使用平台能力。并且兼顾新型科学研究和AI开发场景,以普惠的方式对外提供高性能计算HPC能力。
兼容物理机、云主机等各类基础设施,支持对用户IDC存量物理节点进行利旧。在此之上构建统一资源管理的调度平台,并最终以产品化交互的方式,对外提供超算作业运行能力。
基于云的高性能集群,无需用户进行基础设施的搭建和运维; 秒级弹性,一键快速加入集群,扩充计算资源; 集群长时间空闲时快速释放云上资源,降低成本;
底层资源使用者不可见不可登录,保障租户安全性; 基于RBAC的权限管理,企业人员变动快速更新权限、停用账户;
用户无需编写作业脚本,仅需控制台提交作业运行程序,可视化声明资源需求即可运行作业; 适配云原生开发环境,支持通过容器镜像运行作业; 平台集成镜像管理和文件管理能力,制品、算例文件、结果文件在平台内闭环管理;
平台预置数十款基础科学研究常用的高性能计算软件,用户可直接基于模板软件进行科学计算(部分商业化软件需用户额外购买授权),加速输出计算结果。
总结
京东云高性能计算HPC平台以其简易操作的平台体验和云上丰富的弹性资源,为企业和个人开发者在高性能计算任务场景带来了灵活性和便利性。在AI+基础科学的新趋势下,助力企业降本增效。
京东云HPC平台目前处于灰度测试阶段,欢迎通过微信或企业微信扫描下方二维码加入 京东云HPC超算平台交流群 与我们一同交流。