Sirius关注机器学习研发团队在业务层之外的所有需求,希望以最简单的方式,合理分配GPU集群资源给工程师团队,优化资源使用效率。同时,Sirius还简化并整合了数据管理、实验管理和应用发布等机器学习流程到一个平台,便于统一管理。
预约演示 →作为 NVIDIA Inception Program 的一员,速石科技致力于弥合研发团队与AI基础设施间的差距,简化AI模型的研发流程,借助自身优势减少研发过程中技术和流程的重复,大幅优化企业的研发效率和体验。
速石科技为企业提供端到端的一站式机器学习研发平台——Sirius,并为AI/ML提供全生命周期的产研支持,实现AI/ML模型的部署和落地,从而帮助企业更快地将ML/LLM模型推向生产环境,提升整体产研效率,助力企业实现自身商业价值。
机器学习的体系复杂而庞大,诸如数据处理、生产环境部署、算力资源管理、多个开发环境的管理等,会降低企业的研发效率和研发人员的工作体验。
MLOps就是将机器学习(ML)、开发(Dev)和运维(Ops)串连为一个整体,向人工智能领域提供了系统性的生产过程管理方案,从而针对性地解决前述AI领域问题。
GPU集群的自动配置,自动部署
存储统一配置
资源监控、告警以及运营分析
面向机器学习负载的集群调度器
丰富的企业级调度策略配置
结合并行化计算的调度框架,提升训练效率
数据权限分级
数据可视化
版本管理
数据清洗及标注
面向LLM的训练数据格式化
面向不同类型推理服务的网关
服务规模自动伸缩
Web端可视化向导配置
可观测性指标
Sirius内置众多机器学习常用镜像,让算法工程师能够通过直观的网页界面快速拉起开发环境,并以他们熟悉的方式(如Jupyter/SSH)接入。为了进一步提高开发效率,我们允许用户将定制化的开发环境保存为私有镜像,从而消除重复配置环境的需要,确保工程师能够将精力集中在核心业务开发上。
查看AI云平台Sirius作为全方位的机器学习平台,支持用户根据需要自定义数据集和模型,并提供了数据集与模型的版本管理功能。平台的实验管理模块能够自动记录提交的计算任务,确保所有实验活动可复现、可追踪。此外,当团队需要将模型部署为服务时,我们的应用发布功能可以大幅简化部署流程,帮助团队快速推进应用的上线过程。
资源分配是Sirius的核心能力,平台支持将单张GPU卡拆分给多个用户使用,允许对用户及团队可用的GPU、CPU及内存资源进行上限配置。通过灵活的调度策略,Sirius能够精准、合理地调配GPU资源,最大化GPU集群的使用效率。
Sirius将机器学习的研发流程统一集成在平台内部,使工程师能够直观地实时监控机器学习任务的执行状态和资源消耗,并根据关键监控指标设定预警。同时,管理员可以全面管理和监控所有任务及计算节点的运行情况。
应用
Pytorch、TensorFlow、MXNet
场景
机器人控制
客户挑战
本地资源有限,需要给研究员合理分配GPU资源;
使用工作站无法满足一些规模较大的模型训练的算力需求;
实验室没有专人负责基础架构,需要进行管理并提供基本的运维监控;
研究员希望保持GPU资源的接入方式不变。
应用
Pytorch、TensorFlow、MXNet
场景
嵌入式环境模型开发
客户挑战
不同团队共享GPU,资源分配手动完成,效率很低且管理复杂;
开发环境管理混乱,且因网络限制,安装流程繁琐,影响开发团队效率;
所有GPU的使用情况没有监控,无法得知资源使用效率;
实验管理、超参数调优、分布式训练等需求无法满足。
应用
基于Yolo v5的图形检测应用
场景
实时推理
客户挑战
GPU资源有限且资源利用率不高,难以支撑快速增长的业务需求;
缺乏IT人员,难以针对所有GPU资源、任务进行监控和告警;
现有推理平台较为陈旧,无法根据模型规模自动分配资源,导致大量珍贵的GPU资源浪费。
应用
基于Pytorch、TensorFlow、MXNet、Transformer框架的机器学习训练项目
场景
大语言模型
客户挑战
ML基础架构组件繁多,构建过程复杂易出错,标准化需要高度专业的人力投入;
并行化计算依赖基础架构层的软硬件框架,传统模式下资源管理和计算并行需要大量手工调试工作;
模型开发依赖的高质量数据,需要大量的人工清洗、标注和格式转换工作。
应用
Pytorch、TensorFlow、MXNet
场景
机器人控制
客户挑战
本地资源有限,需要给研究员合理分配GPU资源;
使用工作站无法满足一些规模较大的模型训练的算力需求;
实验室没有专人负责基础架构,需要进行管理并提供基本的运维监控;
研究员希望保持GPU资源的接入方式不变。
应用
Pytorch、TensorFlow、MXNet
场景
嵌入式环境模型开发
客户挑战
不同团队共享GPU,资源分配手动完成,效率很低且管理复杂;
开发环境管理混乱,且因网络限制,安装流程繁琐,影响开发团队效率;
所有GPU的使用情况没有监控,无法得知资源使用效率;
实验管理、超参数调优、分布式训练等需求无法满足。
速石科技行业知识库聊天应用Megrez,面向企业客户提供大语言模型的私有化部署能力,解决了许多企业用户关注的数据安全问题,允许用户自定义行业知识库,实现领域知识的问答。
速石科技支持用户在平台上自定义这款应用的部署,实现从基础架构到最终应用的端到端掌控。
技术咨询 →在线咨询
公众号
扫码关注我们
微信咨询
添加小F@速石科技
说出你的应用
我们就有故事
免费试用
上海速石信息科技有限公司 ©2025 fastone 沪ICP备18017266号-1