KingsoftCloud Starflow Platform

星流平台

为机器学习场景开发者和运维人员提供云原生AI算力和全流程管理能力
核心优势
产品特性
应用场景
产品迭代

核心优势

一站式全流程管理能力

提供从模型开发、训练到推理的完整生命周期管理,打通基础资源调度、算力优化、任务编排、权限管控全链路,降低多模块协同复杂度,实现“开箱即用”的AI开发体验

异构资源高效调度

通过动态任务编排算法与算力管理工具,智能匹配异构算力资源与任务需求,保障GPU资源利用率,显著降低算力闲置成本

高性能存储与网络加速

集成分布式存储系统与高速RDMA网络架构,实现训练数据高速提取、模型参数高吞吐传输,支撑大规模分布式训练任务并行效率提升

任务全生命周期可观测

任务级可观测能力覆盖开发、训练、推理全流程,结合监控、日志、事件信息及硬件维度监控指标,快速定位异常点,缩短排障时间

智能运维保障稳定性

GPU故障自愈技术结合任务可观测性设计,实时监控硬件健康状态与任务进程,自动触发故障迁移与任务重调度,降低算力中断风险,保障长周期训练任务稳定运行

企业级安全管控体系

深度整合资产权限管理与访问控制体系,提供细粒度角色权限控制、任务隔离及资产隔离功能,满足多用户权限控制场景的合规性要求

产品特性

资源池管理

通过多种异构算力资源的统一调度和管理、RDMA网络监控、GPU资源监控及多租户队列的资源分配调度与任务调度,实现算力网络全栈智能管理

在线/远程开发

提供云端集成开发环境并支持Jupyter Notebook与VSCode两种开发模式,支持VPC内网或公网方式进行SSH远程连接开发环境

自定义镜像构建

使用平台预置或自定义镜像进行模型开发与镜像构建,支持开发机环境备份与恢复

RDMA网络拓扑感知调度

基于GPU和RDMA网络拓扑信息优化任务调度,将同一分布式训练任务的多个pod调度到拓扑距离最近的节点和网卡上,降低跨节点通信延迟

GPU故障感知与自愈

开启自愈组件和任务维度自愈配置后,在检测到GPU资源异常时进行任务重调度,有效减少因GPU故障带来的任务中断,提升GPU有效训练时长

分布式训练

支持大规模多机多卡分布式训练,兼容Megatron、DeepSpeed、PyTorch、TensorFlow等主流训练框架,并提供任务可观测能力,结合监控面板、日志服务及Tensorboard实现训练任务分析

模型在线服务

支持使用内置大模型或自定义镜像部署模型在线服务,提供在线调试功能,并支持通过WebUI模式直接调用在线服务接口

资产管理

集成存储配置、模型管理和镜像管理三大模块,支持对接高性能文件存储/对象存储并实现统一权限控制,提供团队模型共享及在线服务关联功能,同时支持KCR镜像仓库对接与自定义镜像可见性管理

应用场景

模型开发与训练

高并发模型在线服务

业务痛点及需求

海量数据读取慢、跨节点通信延迟高、异构算力调度难

优势1

集成KPFS高性能文件存储系统,显著提升海量训练数据的读取效率,支持高吞吐、低延迟的数据访问,减少分布式训练中数据加载的瓶颈问题

优势2

采用RDMA高速网络架构,结合网络拓扑感知调度技术,将同一分布式训练任务的多个计算单元调度至物理拓扑相邻节点,降低跨节点通信延迟,提升分布式训练效率

优势3

基于动态资源编排算法,智能分析任务算力需求,自动匹配异构资源池中的空闲资源,支持任务优先级调度与队列抢占机制,实现集群资源利用率最大化

业务痛点及需求

企业模型选择受限和自运维成本高、单机算力不足和高并发请求延迟、服务单点故障和任务排队

优势1

提供开箱即用的预置大模型(如DeepSeek R1/V3、GLM、Qwen3、小米MIMO、KiMi等),支持用户基于自定义镜像快速部署自定义模型,满足企业对多样化模型选择的业务需求

优势2

针对单机算力瓶颈问题,平台支持大模型跨机部署,结合多副本负载均衡技术,自动根据并发请求弹性扩缩容实例,确保高并发场景下服务高速响应,同时通过多副本冗余部署设计消除单点故障风险

优势3

提供WebUI和API调试工具,支持在服务正式发布前验证模型推理逻辑与性能,确保服务高稳定与低延迟