今年2月,我们FCC-E产品全新上线了专有D区,专门满足用户对高性价比的稀缺大机型需求。
产品研发组的小伙伴们根本停不下来~
才几个月,我们又又上新了!
今天的新品是FCP(fastone Compute Platform),我们的一站式企业级软件平台,主要面向的是已经有本地研发环境,但依然为一些问题而头疼的用户——
- 本地资源利用率为什么这么低??
- 设计仿真业务卡顿,怎么搞?加机器?扩存储?集群化?
- 如何搭建一个研发集群?LSF、Slurm、OpenLava、SGE?没有经验?
- EDA/CAE等工具无法使用?仿真Case异常退出?验证出现中断?
- 项目高峰期或冲刺期,怎么确保业务稳定可靠,不掉链子?
- 有成熟稳定大规模实践的国产自主可控研发平台吗?
- 上市成熟企业如何中长期规划研发平台的演进和持续性降本增效?
01
先说FCP有啥用
四大典型适用场景
FCP是面向创新驱动型用户的一站式企业级软件平台,能够快速构建企业本地研发环境,高效管理用户资源。FCP充分支持企业向混合云架构演进,统一管理多本地及多云的复杂研发环境,提升研发效率并降低总体拥有成本。
emmmmm,官方说明有点过于官方了。
没事,接下来我们来具体看看,对企业来说,FCP的四个典型适用场景:
场景一:黑箱变白箱,提升资源利用率
用户将本地机器当单机使用,各干各的,也不加限制与管理,先到先得。一旦有人着急使用的时候要么机器拉满,内存爆掉,任务失败,要么排长队。本地资源使用情况,形同黑箱。
FCP搭载了速石调度器Fsched,把散乱的单机资源汇成集群,支持灵活的调度策略,实现集群全生命周期管理,避免资源碎片化和资源抢夺问题,统一管理,资源共享,提升利用率。
配合可视化监控,资源使用状况了如指掌,安排得明明白白。如果任务运行触发了预设的告警指标,负责人会实时收到提醒,及时处理任务异常。
场景二:可视化界面+自动化运维,赢麻了
企业业务场景需求多样,比如突发大算力需求、混合云模式、外包团队管理、全球多地协同研发等等,整个IT基础架构通常比较复杂。
而工业软件体系庞大,使用和维护都有一定的门槛,如工具版本管理、任务flow优化等既要基础IT能力,又要有业务认知。
企业内部有多个部门的,还要考虑审批流程与内部权限划分,保障自己的数字资产安全。
FCP实现了上述需求的产品化,只要在后台完成设置,不需要手动一一操作,可视化界面+自动化运维,赢麻了。
场景三:应用与资源双管齐下,研发战斗力加成100%
本地研发环境的集群模式能提高单人资源使用上限,而当本地资源不够用的时候,FCP还能开启混合云模式,自动调度云资源充分满足业务需求。
但是研发效率的症结可不止在资源层面——
FCP提供基于任务、资源或团队层面的灵活调度策略配置,最优化使用资源满足不同企业不同发展阶段的业务目标。对应用本身运行提供支持和优化,并结合应用和底层资源的联动和适配,给出最佳实践。
不同业务团队之间可以根据不同用户权限共享计算资源、存储资源、软件资源等,提高了整个团队的工作与协同效率。
场景四:业务目标稳定达成,中间不掉链子
资源利用率,运维效率,研发效率,统统上来了,最后一个要保证的,就是业务稳定性与可持续性了,尤其是项目高峰期或冲刺期。像我们在普冉案例里算的,停一天就是几百万,这谁扛得住?
我们FCP产品能支持整个研发全流程,同时,高可用的混合云架构保障平台自身稳定。我们能统一管理多本地及多云的复杂研发环境,且能随时拓展到云上,支持业务的扩展性和连续性,业务数据运营分析能为运营优化与决策提供数据支撑。专业的CSM服务能覆盖用户全生命周期,提供全天候专业服务与客户保障,确保用户业务目标的达成。
更长期来看,国产合规这个问题,不少企业已经开始早作打算了。
02
速石两大产品线:
FCP与FCC-E,啥关系?
我们的两大产品线FCC-E和FCP有什么关系呢?
用户应该怎么选?两者之间有冲突吗?
如果企业想轻资产快速起步,对未来发展不确定,对产品弹性要求高,我们首推FCC-E:即开即用的研发云平台,遍布全球的资源中心,满足全球化业务协同发展,能为企业提供一条研发的捷径。
如果企业需要部署或者优化本地研发环境,FCP可以说是不二之选:本地标准化集群部署,灵活的调度策略,可视化的监控与实时告警,IT运维自动化,能最大化本地资源的投入产出比。
发展到一定阶段后,有本地环境的企业,业务逐渐增多,波峰波谷明显,可能涉及外包团队管理,数据备份或容灾,或者多地研发中心协同。这时候,就需要混合云架构了。
本地+云端,这就是混合云了?
nonono ~~
由于FCP与FCC-E在底层架构的一致性,FCP能够随时向混合云架构演进,把本地的管理能力拓展到云端,并且实现算力、网络、存储、许可证和数据等关键资源的统一管理,保障资源调度、系统监控和性能分析的一致性和高效性。
之前怎么用,之后还是怎么用。
03
选择适合你的FCP版本:
Core核心版 vs Suite旗舰版
为了让FCP更贴合用户的实际需求,我们推出了两种不同的版本——FCP Core核心版与FCP Suite旗舰版。
下图中心区域即FCP Core核心版,中心和周边共同构成FCP Suite旗舰版。
二者相同点
- 帮助企业提升研发效率,保障业务的连续性与扩展性;
- 自动化构建标准本地环境,榨干本地算力,让运维更简单;
- 提供可视化的资源监控告警,信息透明,便于决策支持。
二者的区别
- Core提供的是核心功能模块,构建环境、集群管理、自动化运维这些都包括在内,因此更适合需要快速搭建本地环境的小微企业;
- Suite涵盖Core的全部功能,并在这个基础上增加了六大高级能力加持,更适合用于大中型企业的复杂研发环境管理;
- FCP目前只有Suite支持将工作负载溢出至云端,也只有Suite能满足深度定制化需求。
总的来说,Core是产品的地基,而Suite就是建立在这个基础上更全面、更符合企业级业务需求的产品。
04
FCP的落地实践
举4个栗子叭
单机变集群,研发效率提升50%
我们有一家做模拟芯片设计的用户,他们的研发工程师们都没有接触过集群,平时本地服务器就是当单机用,各干各的,没有明确的资源限制和任务管理机制。
这就导致任务高峰期机器经常满载,内存爆掉也很常见,办公室里经常响起绝望的嘶吼。
OK,安排。
转成集群模式后,对研发工程师来说,一个任务可以拆分多机跑,多个任务可以同时跑,来了大任务也不用担心被一台机器的上限所限制。
而原本碎片化的资源在统一汇入资源池后,IT负责人可以直接在可视化界面上做集群管理,根据各组的情况调度分配资源,从根本解决资源碎片化和资源抢夺等问题。
从单机模式到集群模式,最直接的效果是:计算效率提升30%-50%。
单机转集群更多优点请戳:集群如何成为项目研发、IT和老板的最佳拍档?
FCP产品替代开源调度器,CAD精力节约40%+
普冉半导体在与我们合作前,是用SGE搭建集群的,但版本和新版操作系统、EDA工具软件兼容不佳,在满足一些更高阶功能的情况下受到一定限制。
为了保障公司整体业务的稳定性,同时最小化软件环境对研发进度的影响,普冉选择让FCP逐渐覆盖原有的研发环境,最终完全替代,以此提高自身的研发效率和体验。同时,研发人员无须改变操作习惯。
我们提供了调度策略+任务&资源监控+实时告警三步走功能。
在调度策略上,普冉能按照任务优先级、资源空闲状况、许可证使用等维度安排任务进程,也能实现不同团队间的资源分配,随时设置,随时修改。
在监控层面,我们提供基于EDA任务层的监控、告警、数据统计分析功能与服务,管理者能监控重要指标变化,从全局角度掌握项目的整体任务及资源情况。
在实时告警上,普冉能自己设置关键指标,一旦触发告警,就通过邮件、微信、飞书等方式告知相关人员,提醒处理。
FCP作为标准化产品,IT自动化程度高,能帮CAD和IT把很多手动的工作自动化,省去大量繁琐的手动部署和对接调试工作。
在和普冉之前的研发表现做了量化对比后,我们帮助普冉提升了30%的整体研发效率,在上线初期就为CAD节省了40%的时间。
更多详细内容可戳:【案例】普冉半导体逐步布局自主可控,渐次提升研发效率
海内外多site研发协同与统一管理
我们有一家全球化的IC Design用户,在上海、美国、印度等地都有研发团队,每个团队都是独立的,但又存在业务上的交叉,还有云上云下多个不同研发环境。
这种跨国多地研发中心的协同与统一管理,算是最复杂的那种了。
用户统一使用了我们的产品,这对保障不同site间基础架构与用户体验的一致性起到了关键作用,可以减少大量的重复建设和协同过程中的沟通成本,显著提高了整体的工作效率。
在多地研发协同上——
FCP的标准化确保了各site间的环境一致性,可以减少大量的重复建设和协同过程中的沟通成本。全球的项目数据能按照需求手动或自动同步,各site间互为备份。还有应用的多版本管理,网络优化加速这种工作我们也顺手解决了。
在FCP的支持下,不管是环境、网络、数据还是工具,都得到了一致性的保障。
在全球统一管理上——
FCP能实现全球范围的统一身份认证,给不同的用户分别设定角色与访问权限,对项目的数据和计算资源等做统一的管理和隔离,提高运营效率与整体信息安全水平。IT自动化和平台级的统一管理也释放了IT与CAD的精力,各site间无需重复配置同一职能,有效帮助团队节省了人力成本。
混合云架构,无需动辄六位数投入
在和一家数模混合芯片设计企业的交流过程中,对方表示自己的团队扩张速度很快,业务量大且没有规律,突发算力需求和多项目并行是常事了。
之前虽然超额配置了一批服务器,现在也不够用了,考虑到自身需要一定的现金流储备,而且机器买多了也没有地方放,因此不想继续投入大量资金采购。
在详细分析了用户的业务数据后,我们整理出了三个重点:
- 精细化运营,给一些需要大内存的任务单独分区,避免内部的资源抢夺,进一步提升效率;
- 尽可能使用本地资源,如果有突发算力需求,或者到了业务高峰期,能使用云端弹性资源补足;
- 本地和云端统一管理,降低IT压力。
FCP的混合云架构,自带的Auto-Scale弹性伸缩功能,可以按照任务需求,动态开启和关闭云端资源,在资源灵活性和快速响应能力这一块拿捏得死死的。
我们提升了用户的资源利用率,混合云架构也完美解决了项目并行带来的短期算力缺口,无需动辄六位数的投入,需要多少用多少。
05
1000家企业
1000个CSM
1000家企业,可能有1000种不同需求。
大部分都可以用标准FCP产品来满足的。
但总有一些非标需求,需要深入企业自身的业务场景与使用现状,会涉及到一些定制化服务、专业分析评估、专家技术支持与行业经验的提炼输出。
当然,很多问题,用户自己也能在实践中慢慢摸索,这个得失权衡,取决于用户自己,可能是时间,可能是金钱,或其他。
我们的CSM(Customer Success Manager)服务,提供面向企业用户的全天候专业服务与客户保障,覆盖用户全生命周期使用场景。
CSM专业服务——单核时成本下降73%
蓝箭航天,我国民营商业航天的“破局者”,主打一个自主研发,发展速度非常快,使用速石研发平台的用户数从0到数百人,稳定增长,资源用量也随着业务周期长期稳定上升。
CSM服务效果:
1.提升用户研发效率,保障整体业务稳定性;
2.整个研发平台使用期间,单核时成本下降达73%。
我们大致把整个业务分为三个阶段:
阶段一:在业务的磨合阶段,平台刚刚上线,用户的使用习惯比较粗放。
CSM在调研和摸底后,结合实际业务和操作,向团队输出更精细的资源使用建议,并对CAE应用做了深度支持,建立基础监控告警策略。
阶段二:在中期优化阶段,GPU的使用量逐步增多,成本提升,不合理的资源使用带来的成本浪费也被放大。
CSM通过监控数据发现这点后,指导了合理的资源选型和业务分配,让资源利用更加合理、高效。同时增设了核时波动告警、实例空闲告警,持续进行成本优化。
阶段三:在持续优化的平稳期,蓝箭的业务稳定性和单核时成本均迈入了稳定向好的态势。
CSM持续提供主动巡检、定期数据分析、使用技巧赋能、安全加固规划、产品需求追踪落地等服务支撑,深耕细化,持续提升用户体验。
更多详细内容可以参考:从“地狱级开局”到全球首款液氧甲烷火箭,我们如何助力蓝箭冲破云霄
- END -
我们有个即开即用的一站式研发平台
支持1000+常见应用,数百家行业客户落地实践
全球海量异构资源随心调用
可基于业务状态监控告警,提供运营优化分析报表
支持海内外多地协同研发与办公
行业专家团队全力保障业务落地
扫码免费试用,送200元体验金,入股不亏~
更多电子书
欢迎扫码关注小F(ID:imfastone)获取
你也许想了解具体的落地场景:
只做Best in Class的必扬医药说:选择速石,是一条捷径
超大内存机器,让你的HFSS电磁仿真解放天性
从“地狱级开局”到全球首款液氧甲烷火箭,我们如何助力蓝箭冲破云霄
普冉半导体逐步布局自主可控,渐次提升研发效率
光电兼修的Alpha Cen,如何应对上升期的甜蜜烦恼?
暴力堆机器之王——Calibre
王者带飞LeDock!开箱即用&一键定位分子库+全流程自动化,3.5小时完成20万分子对接
这样跑COMSOL,是不是就可以发Nature了
一站式研发云平台:
专有D区震撼上市,高性价比的稀缺大机型谁不爱?
从“单打独斗”到“同舟共集”,集群如何成为项目研发、IT和老板的最佳拍档?
国产调度器之光——Fsched到底有多能打?
八大类主流工业仿真平台【心累指数】终极评测(上)
2023仿真宇宙漫游指南——工业仿真从业者必读
这一届科研计算人赶DDL红宝书:学生篇
最强省钱攻略——IC设计公司老板必读
近期重大事件:
速石科技入驻粤港澳大湾区算力调度平台,参与建设数算用一体化发展新范式
速石科技成NEXT PARK产业合伙人,共同打造全球领先的新兴产业集群
速石科技与芯启源开启战略合作,联手打造软硬件一体芯片研发云平台
速石科技联合电信、移动、联通三大运营商,为国家数字经济转型注入新动力