
资源池管理
通过多种异构算力资源的统一调度和管理、RDMA网络监控、GPU资源监控及多租户队列的资源分配调度与任务调度,实现算力网络全栈智能管理

在线/远程开发
提供云端集成开发环境并支持Jupyter Notebook与VSCode两种开发模式,支持VPC内网或公网方式进行SSH远程连接开发环境

自定义镜像构建
使用平台预置或自定义镜像进行模型开发与镜像构建,支持开发机环境备份与恢复

RDMA网络拓扑感知调度
基于GPU和RDMA网络拓扑信息优化任务调度,将同一分布式训练任务的多个pod调度到拓扑距离最近的节点和网卡上,降低跨节点通信延迟

GPU故障感知与自愈
开启自愈组件和任务维度自愈配置后,在检测到GPU资源异常时进行任务重调度,有效减少因GPU故障带来的任务中断,提升GPU有效训练时长

分布式训练
支持大规模多机多卡分布式训练,兼容Megatron、DeepSpeed、PyTorch、TensorFlow等主流训练框架,并提供任务可观测能力,结合监控面板、日志服务及Tensorboard实现训练任务分析

模型在线服务
支持使用内置大模型或自定义镜像部署模型在线服务,提供在线调试功能,并支持通过WebUI模式直接调用在线服务接口

资产管理
集成存储配置、模型管理和镜像管理三大模块,支持对接高性能文件存储/对象存储并实现统一权限控制,提供团队模型共享及在线服务关联功能,同时支持KCR镜像仓库对接与自定义镜像可见性管理