新闻资讯

了解金山云最新资讯

新闻资讯 > 金山云星流训推平台重磅发布
金山云星流训推平台重磅发布

2025-06-03 15:20:00

近日,金山云星流训推平台正式发布。平台旨在为用户提供一站式训推任务管理平台,保障训推任务稳定高效运行,提升算力使用效率,能为机器学习场景开发者与运维人员提供云原生AI算力与全流程管理能力支持。

平台由基础资源管理、算力管理工具、训推任务管理、资产与权限管理等模块构成,包括任务编排调度、任务可观测性等6大核心特性,适用于模型开发与训练、高并发模型在线服务等场景。


6大核心优势:

• 一站式全流程管理能力:提供从模型开发、训练到推理的完整生命周期管理,能打通基础资源调度、算力优化、任务编排、权限管控全链路,通过降低多模块协同复杂度,实现“开箱即用”的AI开发体验;


• 异构资源高效调度:通过动态任务编排算法与算力管理工具,平台能智能匹配异构算力资源与任务需求,保障GPU资源利用率,显著降低算力闲置成本;


• 高性能存储与网络加速:采用集成分布式存储系统与高速RDMA网络架构,可实现训练数据高速提取、模型参数高吞吐传输,支撑大规模分布式训练任务并行效率提升;


• 任务全生命周期可观测:任务级可观测能力覆盖开发、训练、推理全流程,结合监控、日志、事件信息及硬件维度监控指标,快速定位异常点,缩短排障时间;


• 智能运维保障稳定性:GPU故障自愈技术结合任务可观测性设计,实时监控硬件健康状态与任务进程,自动触发故障迁移与任务重调度,降低算力中断风险,保障长周期训练任务稳定运行;


• 企业级安全管控体系:深度整合资产权限管理与访问控制体系,提供细粒度角色权限控制、任务隔离及资产隔离功能,满足多用户权限控制场景的合规性要求。


2大应用场景 :

• 模型开发与训练:通过KPFS高性能文件存储、RDMA网络拓扑调度和动态资源编排,解决海量数据数据加载、跨节点通信及异构算力调度难题,保障分布式训练效率与连续性;


• 高并发模型在线服务:基于预置/自定义模型跨机部署、多副本弹性扩缩容与冗余设计,突破单机算力瓶颈,实现高并发低延迟响应与高可用服务保障。