KingsoftCloud Starflow Platform

星流平台

为机器学习场景开发者和运维人员提供云原生AI算力和全流程管理能力

查看文档训推平台模型API服务

核心优势

产品特性

应用场景

产品迭代

核心优势

一站式全流程管理能力

提供从模型开发、训练到推理的完整生命周期管理，打通基础资源调度、算力优化、任务编排、权限管控全链路，降低多模块协同复杂度，实现“开箱即用”的AI开发体验

异构资源高效调度

通过动态任务编排算法与算力管理工具，智能匹配异构算力资源与任务需求，保障GPU资源利用率，显著降低算力闲置成本

高性能存储与网络加速

集成分布式存储系统与高速RDMA网络架构，实现训练数据高速提取、模型参数高吞吐传输，支撑大规模分布式训练任务并行效率提升

任务全生命周期可观测

任务级可观测能力覆盖开发、训练、推理全流程，结合监控、日志、事件信息及硬件维度监控指标，快速定位异常点，缩短排障时间

智能运维保障稳定性

GPU故障自愈技术结合任务可观测性设计，实时监控硬件健康状态与任务进程，自动触发故障迁移与任务重调度，降低算力中断风险，保障长周期训练任务稳定运行

企业级安全管控体系

深度整合资产权限管理与访问控制体系，提供细粒度角色权限控制、任务隔离及资产隔离功能，满足多用户权限控制场景的合规性要求

产品特性

资源池管理

通过多种异构算力资源的统一调度和管理、RDMA网络监控、GPU资源监控及多租户队列的资源分配调度与任务调度，实现算力网络全栈智能管理

在线/远程开发

提供云端集成开发环境并支持Jupyter Notebook与VSCode两种开发模式，支持VPC内网或公网方式进行SSH远程连接开发环境

自定义镜像构建

使用平台预置或自定义镜像进行模型开发与镜像构建，支持开发机环境备份与恢复

RDMA网络拓扑感知调度

基于GPU和RDMA网络拓扑信息优化任务调度，将同一分布式训练任务的多个pod调度到拓扑距离最近的节点和网卡上，降低跨节点通信延迟

GPU故障感知与自愈

开启自愈组件和任务维度自愈配置后，在检测到GPU资源异常时进行任务重调度，有效减少因GPU故障带来的任务中断，提升GPU有效训练时长

分布式训练

支持大规模多机多卡分布式训练，兼容Megatron、DeepSpeed、PyTorch、TensorFlow等主流训练框架，并提供任务可观测能力，结合监控面板、日志服务及Tensorboard实现训练任务分析

模型在线服务

支持使用内置大模型或自定义镜像部署模型在线服务，提供在线调试功能，并支持通过WebUI模式直接调用在线服务接口

资产管理

集成存储配置、模型管理和镜像管理三大模块，支持对接高性能文件存储/对象存储并实现统一权限控制，提供团队模型共享及在线服务关联功能，同时支持KCR镜像仓库对接与自定义镜像可见性管理

应用场景

模型开发与训练

高并发模型在线服务

业务痛点及需求

海量数据读取慢、跨节点通信延迟高、异构算力调度难

优势1

集成KPFS高性能文件存储系统，显著提升海量训练数据的读取效率，支持高吞吐、低延迟的数据访问，减少分布式训练中数据加载的瓶颈问题

优势2

采用RDMA高速网络架构，结合网络拓扑感知调度技术，将同一分布式训练任务的多个计算单元调度至物理拓扑相邻节点，降低跨节点通信延迟，提升分布式训练效率

优势3

基于动态资源编排算法，智能分析任务算力需求，自动匹配异构资源池中的空闲资源，支持任务优先级调度与队列抢占机制，实现集群资源利用率最大化

建议搭配产品

文件存储KPFS

对象存储

容器镜像服务

业务痛点及需求

企业模型选择受限和自运维成本高、单机算力不足和高并发请求延迟、服务单点故障和任务排队

优势1

提供开箱即用的预置大模型（如DeepSeek R1/V3、GLM、Qwen3、小米MIMO、KiMi等)，支持用户基于自定义镜像快速部署自定义模型，满足企业对多样化模型选择的业务需求

优势2

针对单机算力瓶颈问题，平台支持大模型跨机部署，结合多副本负载均衡技术，自动根据并发请求弹性扩缩容实例，确保高并发场景下服务高速响应，同时通过多副本冗余部署设计消除单点故障风险

优势3

提供WebUI和API调试工具，支持在服务正式发布前验证模型推理逻辑与性能，确保服务高稳定与低延迟

建议搭配产品

容器镜像服务

虚拟私有网络

产品迭代

2025-06-11

新功能