【案例】从“地狱级开局”到全球首款液氧甲烷火箭,我们如何助力蓝箭冲破云霄

火箭快递,使命必达。
美日韩包邮,江浙沪秒到。
LANDSPACE蓝箭航天在2019年联合淘宝正式启动“宝箭”计划,共同研发“宝箭”号运载火箭,实现网购快递急速送达的目标。


这可能是我们朋友圈离火箭最近的一次。
大家都还在:“急,在线等”。


2023年7月12日,蓝箭航天跨出了创造历史的一步。
朱雀二号遥二运载火箭在酒泉卫星发射中心发射成功,成为全球首枚成功入轨的液氧甲烷火箭。
蓝箭航天CEO张昌武在成功第二天发布的全员内部信里说:“我们始终坚守常识,坚决通过自主研发液体动力系统,立足于自主创新、自主可控的动力核心来构建朱雀系列运载火箭,使得我们至今仍是中国第一(且唯一)家依靠独立研制的动力系统取得火箭飞行成功的商业火箭公司,也是唯一建成了设计、制造、测试、发射完整链条能力并经飞行验证的商业火箭企业。”


总有人在替我们仰望星空。

01、蓝箭的“地狱级难度”开局

一、民营商业航天的“破局者”,主打一个自主研发

蓝箭的核心竞争力就是我们没有诀窍,我们就是在按照愚公移山的精神在做火箭,在遵从火箭规律的前提下做火箭。我们坚持核心的技术自己研制,核心的设施自己保障。

——蓝箭航天CEO 张昌武

作为国内首家取得全部准入资质的民营运载火箭企业,蓝箭航天主打自主创新、自主可控,在没有可以借鉴参考的企业前提下,选择了“地狱开局”模式——锚定液氧甲烷技术路线、自研发动机系统、自建核心设施,成为超前技术的开拓者。

张昌武明确表示,公司成本支出比例中,研发制造要居于首位。在绝大多数民营航天企业采购第三方服务的氛围下,他觉得,只有自主研发和制造,才会有出路。从最前沿的发动机理念的构想,到最新技术的设计图纸,到制造出真实的发动机和其他火箭部件,再到不断试验更改设计中的错误,再到制造出试验版本的火箭,整个流程均由蓝箭航天主导。

因此,蓝箭所选的技术路线是投资规模最大、技术难度最深、开发周期最长的,对人的挑战也是最高的。一旦能够走下来,所形成的行业壁垒非常高,所形成的市场竞争力也非常强。

二、大量仿真 VS 三次机会

航天最挑战人性的地方,就是航天这个东西,没有中间状态,只有0和1,而且大家只会记住1。”

——火箭研发总经理 戴政

整个火箭的造价,纯硬件成本目前都在1亿元以上,遑论其他。
这次成功入轨的朱雀二号,蓝箭就只给了TA三次失败的机会

如何才能真正“把问题留在地面,把成功带上太空”,这是个至关重要的问题。
“液氧甲烷的难,并不是说它有理论上不可行的地方,它更多的是体现在工程应用层面的难……在这个过程中,我们做大量的仿真,做大量的试验,去摸索规律,逐渐建立对甲烷物理特性的认识,才能解决好这个问题。”火箭研发总经理戴政揭示了答案——大量的仿真,大量的试验。

不是所有的东西都可以通过观察、推演和试验获得的,比如宇宙演化、核弹爆炸,比如火箭入轨,或者实现不了,或者成本过高。
所以需要仿真,降低成本,提前试错,缩短试验进程。
仿真,是基于一定的数理模型基础,对现实的空间和时间进行分割,一次次反复计算求解,才能建立认知,摸索规律,从而解决大大小小的问题。

通过仿真,我们可以做很多事情:
比如,在以前发的这篇文《杨洋组织的“太空营救”中, 那2小时到底发生了什么?里,通过仿真验证,西北卫星测控中心确认了卫星失联的原因,准确及时采取应对措施,恢复整个卫星通信系统。

再比如,“宝箭”快递,要在什么高度以什么速度什么角度才能正确投递到你家天台?

在蓝箭的世界里,大量仿真,大量试验,才能一击必胜。

02、从0到数百用户 一个持续成长的研发环境

一、一千个人,一千种使用方式

主打自主研发的蓝箭航天,发展速度非常快,使用速石研发平台的用户数从0到数百人,稳定增长,资源用量也随着业务周期长期稳定上升。

这个过程中有两个问题:

1. 研发团队人员来自天南海北,背景复杂,经验不一,使用习惯也各不相同,需要有一个千人千面的平台;
2. 除了使用习惯外,就跟Alpha Cen一样,研发人员需要持续探索新的技术路线,做一些前沿研究和尝试。所以蓝箭需要给研发工程师们留出空间,给他们充分的自由度,让他们放开手去试错,去最大可能寻求更优解

首先,每个用户都是单独的账号,互不干扰。
而针对不同的用户背景和特性,我们提供了以下三种使用模式:

任务模式:通过Web浏览器向导式一键提交仿真任务,适用于确定的仿真求解流程。

集群模式:通过Web浏览器登录集群远程桌面,打开应用开启仿真任务,充分发挥按需配置、资源多样化大规模并行调度能力。

工作站模式:Windows系统,与传统的本地单机仿真处理习惯一致。


既能千人千面,也能给每个工程师最大的自由度,满足他们的使用习惯。
三种模式的实际应用,可以戳这篇:怎么把需要45天的突发性Fluent仿真计算缩短到4天之内?

二、多团队研发协同与统一管理

根据业务线的划分,蓝箭有数个研发团队,且分布在北京、上海、西安三个地区,不同地区的团队存在业务上的交叉,需要多团队研发协同与统一管理。


用户层面,我们为不同团队成员提供面向CAE应用适配与优化的研发环境,用户之间可共享数据、应用、计算、网络、存储,有效利用资源,提高协作能力。


数据层面,一方面,我们打通了数据传输通道,提供数据管理能力,实现多团队仿真任务高效协同;另一方面,平台对不同用户之间也做到了数据隔离,管理员可针对业务需求灵活控制平台的功能和权限分配,保障数据访问安全。


资源层面,我们支持将同一个集群按使用团队或资源属性分成不同的独立分区,比如浙桂。这样既保证了不同组的研发们能在同一个集群中工作,保留各自操作习惯的同时还互不干扰;又可以让他们更有效地使用资源,减少闲置资源,提升整体资源利用率。

我们支持多种用户统一身份认证体系协议的对接:OIDC、SAML、oAuth2目前已经接入了蓝箭的身份认证体系。

三、基于数据分析的精细化运营管理

1. 更全局
基于CAE任务层的监控、告警、数据统计分析功能与服务,我们能从全局角度监控各个重要指标变化,掌握整体任务及资源情况,为未来项目合理规划、集群生命周期管理、成本优化提供支持。
比如,通过关注不同团队用量占比与周期性波动情况,兼顾团队与整体,助力各团队实现其业务目标。

2. 更细颗粒
我们还支持以更精细的颗粒度,如以项目、产品、用户、应用为维度,监控任务和资源情况,进行运营数据分析与成本评估,为进一步管理优化提供支持。
比如,用户级别的用量统计与分析,能更好地理解业务场景与个人需求,公司能更好地在全局管理的基础下提供支持。

03、R&D-IT 一个CAE界不存在的岗位

芯片设计界有个非常稀罕的岗位叫IT-CAD,人才难得。
我们真心觉得,CAE界也值得拥有。

翻译一下,TA的主要职能是在研发与IT之间架起一座桥梁,我们姑且可以称之为R&D-IT能力。可针对研发人员所使用的CAE应用软件提供底层硬件基础上的整个研发环境架构与构建、CAE仿真流程跑通与优化、故障响应、技术支持和使用咨询等服务
想仔细了解我们是怎么助攻的,可以参考这篇:【案例】普冉半导体逐步布局自主可控,渐次提升研发效率

一、标准CAE仿真环境的规划和搭建

TA需要做的第一件事,就是站在整个仿真研发体系和架构视角进行标准CAE仿真环境的规划和搭建。
这个规划,不是走一步看一步,也不是头痛医头,脚痛医脚。

这件事,我们可以帮TA全做了。
我们的产品在设计之初就是面向CAE应用,服务整个企业的工业仿真研发业务场景的。这也决定了我们解决问题的出发点永远是:是否满足研发业务需求,然后从上至下地解决问题。


三个特点:
1. 我们提供的是一整套即开即用的CAE仿真研发平台,是完整的一体化产品;
2. 产品一站式交付,提供了非常好的用户交互体验,简单易上手;
3. 无论用户人数、资源数量和类型如何变化,产品架构对现在&未来均有着极强的兼容性与弹性,且支持多个研发中心协同

二、仿真设计流程的跑通,应用的适配和衔接

随着CAE环境搭建的完成,TA需要做的第二件事,就是仿真设计流程的跑通,各种CAE应用的适配和衔接。
这第二件事,我们能帮TA把手动做的事全部自动化,还能提供应用层与资源层的最佳实践经验。


我们提供的这套上中下层联动的CAE仿真研发环境
1)连接上层CAE应用,对应用本身的运行提供支持和优化;
2)连接底层资源,给用户提供更灵活、更高效使用资源的能力;
3)结合CAE应用和底层资源的联动和适配,给出最佳实践经验。

火箭设计是一项复杂、周期很长、技术含量非常高的工作,其研发过程充满了挑战性。在设计、研发和制造过程中应用的学科,涉及到结构力学、流体力学、传热学、材料等,对CAE应用覆盖广泛。

在实际研发场景中,普遍存在的问题有资源利用率不高、排队现象严重、成本难以把控等等。这大多是因为选择的资源不匹配场景,使用不规范。整个过程中没有最佳实践,缺乏专业指导。另外,随着新的应用场景上来,需要去探索和尝试的成本特别高,还会造成资源浪费。

1. 结合业务的常见CAE应用适配

不同的CAE应用,对于底层资源层的适配要求是不一样的。
我们基于蓝箭的用户通用场景,对不同机型效率和成本进行比对后,帮助用户完成了实例选型。
选型目的有两个:匹配业务与控制成本。


根据我们的经验,对于前后处理来说,一般需要选择GPU能力比较强的机型。
对于求解计算:
隐式算法,相比显式算法来说,精度相对高,但可扩展性不是很好,即在多台机器上的线性加速比并不好,适合于在多核大内存机器上运行,一般对内存、IO要求较高。
显式算法,精度比隐式算法低,但可扩展性相对较好,即在多台机器上的线性加速比相对较好,适合于多节点并行计算,对机器无特殊要求,一般对内存、IO要求较低。


不同CAE业务场景的扩展性排序大抵如下图所示,从上往下逐步提高。

比如,隐式算法计算电磁学,并行度没那么高,适合单机、高配,IO、性能越高越好
而计算流体力学、结构力学这种业务场景,线性加速性能比较好,适合暴力堆机器,多机并行

2. 针对某CAE应用的最佳实践参考

根据某CAE应用的最佳实践:
在同等核数下运行该应用,开关超线程的成本差距并不大,但关闭超线程可以节省约一半甚至更多的时间,性价比相当高。

我们建议蓝箭:
第一,针对该应用统一关闭超线程跑
第二,设置资源分区,一个开超线程分区,一个关超线程分区,让用户分开使用。研发团队可以根据自身业务场景需求,选择不同的分区。


我们为蓝箭提供的最佳CAE应用实践参考,极大地帮助了研发团队更好地利用资源,从而提升计算效率,节省计算成本。

三、DEBUG,处理研发与IT之间的交叉区域问题

这第三件事,最令人头大,也最耗精力。
有时候,可能让TA从睁眼到闭眼都被BUG环绕。

我们能做的:
1. 根据最佳实践和经验进行预判,帮TA预防掉一些问题;
2. 产品级能力,通过把手动过程IT自动化,减少一些问题;
3. 我们帮TA定位并解决一些问题。
让TA能把时间花在更重要的事情上。


为什么有这么多问题?
根本原因在于,研发与IT之间是有壁的,他们说的是不同世界的语言。而且壁与壁之间还有一段不小的距离,不知道该归谁管,需要懂交叉学科的人才。
有些交叉领域问题,IT可能真不了解,研发可能不得不自学大量技能。

详情可戳这篇:八大类主流工业仿真平台【心累指数】终极评测(上)


我们在这方面表现非常优秀,下图可以看出来:
我们能为交叉领域提供专业支持,包括技术支持、故障响应、使用咨询等,让研发从此可以专注研发。

04、CSM定制专业服务单核时成本下降73%

CSM(Customer Success Manager),客户成功经理,作为关键客户服务接口,主要为蓝箭提供了以下两类服务:


1. 定制全天候专业服务
为客户定制专业的服务计划,包括整体运维管理、资源统计分析、账单分析、周期性服务事件汇总等。通过全天候主动式服务,快速响应及闭环用户遇到的问题,提升用户使用体验。


2. 业务高峰期重保服务

CSM还提供业务高峰期重保服务,协助用户平稳度过业务高峰,保障关键业务顺利开展。


今天我们只看定制全天候专业服务。

先看效果:
1. 提升用户研发效率,保障整体业务稳定性
2. 整个研发平台使用期间,单核时成本下降达73%
单核时成本反映了每单位计算资源的费用,从而直接反映了资源利用的效率
注:此单核时费用,包含计算、存储、网络、服务等整体费用

根据CSM的工作与效果,我们大致把整个业务分为三个阶段:


阶段一:业务早期磨合期
平台上线初期,业务场景不固定,用户大量保留原本较粗放的使用习惯,资源按需使用计费的情况较多。


这一阶段,CSM积极开展用户调研,并定期与用户的业务团队leader进行用量数据分析,结合实际业务开展的情况,输出计算资源合理使用建议,实施按需OD转包月RI策略,使得资源使用逐步精细化、合理化。
同时,CSM针对CAE应用进行深度支持,建立起基础监控告警策略,开展研发平台使用培训,并快速响应和处理用户日常问题,充分保证业务运行稳定。


阶段二:中期深入优化期
随着用户业务的推进,GPU资源使用逐步增多,由于GPU资源成本较高,使得单核时成本出现显著上升,由此,不合理的资源使用带来的成本浪费也被放大。


CSM根据监控数据发现了这一问题,指导用户进行合理的资源选型和业务分配,让资源利用更加合理、高效。同时,深入使用场景,协助用户持续优化告警策略,增设了核时波动告警、实例空闲告警等,进一步提升平台稳定性,并为持续性的成本优化提供了数据支撑。


阶段三:持续优化的平稳期
经历了前两个阶段的波动之后,业务稳定性单核时成本均迈入了小步稳定向好的态势。


在这一阶段,CSM持续提供主动巡检、定期数据分析、使用技巧赋能、安全加固规划、产品需求追踪落地等服务支撑,深耕细化,持续提升用户体验。


CSM主要做了哪几件事?

一、全方位系统监控&飞书告警策略

CSM为蓝箭搭建全方位系统监控&告警策略体系
初期,协助用户创建基础监控体系,提前预防问题,降低系统风险;
中后期,深入使用场景,协助用户持续优化告警策略,比如核时波动告警、实例空闲告警等,进一步提升平台稳定性,为持续性成本优化提供数据支持。


平台级告警处理:
一旦发现问题,CSM会结合用户调研与数据分析情况,与用户进行及时沟通和风险预警提示,根据实际业务运行情况针对性输出建议,指导用户进行合理资源选型与业务分配,让资源利用更加合理、高效。


用户级告警处理:
1. 告警信息会被通知至飞书群;
2. 接收人收到飞书告警后,匹配资源所属研发并定向通知至本人;
3. 资源所属研发收到告警通知后,进行后续操作。

二、周/月/年度数据分析,定期汇报与沟通

为了提供最高效、最全面的服务,CSM向蓝箭提供了周/月/年度数据分析报告,紧急问题随时线上会议交流。
这种定期和主动的沟通方式,一方面能使我们更好更及时地响应、理解和满足用户的需求,另一方面,也为管理者提供一个及时、全面的视角,掌握平台的整体运营情况、研发团队遇到的问题和需求的最新进展。

三、主动巡检,7*24小时技术问题响应

面对各类复杂问题,我们始终坚持以用户、业务为中心,以专业的团队及时响应、处理问题,确保问题得到完整的闭环。
年度问题处理与闭环总计:400+,覆盖平台搭建与维护、CAE应用安装与维护、网络调试与维护等问题。

四、专项培训与FAQ总结

CSM还会组织专项培训FAQ总结分享,助力形成内部沉淀,提高工作效率,更加迅速和准确地解决问题。


1. 持续培训
为帮助研发团队充分理解和快速掌握平台的使用,CSM会针对使用过程中的一些疑问进行集中专项培训,尤其是在平台上线与更新、新人入职期间加大培训力度,并以文档、培训视频方式形成内部沉淀。


2. FAQ总结
为了提高研发人员解决问题的效率和自助能力,针对共性和普遍性存在的问题,CSM每月都会整理和更新常见问题集(FAQ),在蓝箭内部分享,减少重复问题带来的沟通时间成本,提高用户体验。

Take Away

1. 张昌武说:“我们某种程度上在中国商业航天领域里面是一个最早的发起者,也是在这过程中一个持续的参与者和推动者。因为这个行业是没有一个现成的样板让我们去模仿,让我们去抄袭的。我们只有自己去定义,这个行业该怎么去走。”
我们也感到非常荣幸,能有机会参与并推动中国自主商业航天领域的发展。


2. 在产品调研中用户反馈,我们的产品在短时间即可满足绝大多数业务流程和功能,帮他们节省了很多时间和人力,快速实现整个研发环境的从零到一。而且很重要的一点是,原来的使用方式都是单机为主,现在实现了集群化和自动化,大大提升了研发效率。


3. 国内工业制造领域陆续进入产业升级数字化转型阶段,尤其对于主打自主研发创新的公司,工业仿真软件是智能制造设计研发环境不可或缺的工具,在产品迭代过程给予的技术支撑作用日益凸显,各环节都需要与仿真技术进行深度融合,加快迭代周期,节省时间和资源。我们的仿真研发平台以及拥有的R&D-IT能力,对这类公司的快速起飞能起到非常好的推动作用。

关于蓝箭航天

蓝箭航天空间科技股份有限公司(蓝箭航天)是国内领先的航天运输系统创建及运营的商业公司,成立于2015年,国家高新技术企业,国际宇航联合会(IAF)会员。蓝箭航天以国家战略为指引,以市场需求为导向,致力于研制以液氧甲烷作为推进剂的中大型运载火箭系列产品,为全球市场提供高性价比、高可靠性的发射服务。秉承高度集成化、智能化的产品设计和研发理念,蓝箭航天凭借卓越的创新能力及专业技术团队解决产品设计、制造、测试和交付,构建商业航天领域的科技综合体,打造世界一流商业航天企业。

关于fastone云平台在各种CAE应用上的表现,可以点击以下应用名称查看:

Bladed │ Fluent │ LS-DYNA │ COMSOL

速石科技工业仿真行业白皮书,可以戳下方查看:
仿真宇宙|评测篇(上) |评测篇(下)

- END -


我们有个工业仿真研发云平台
CAE/CFD仿真设计全流程覆盖
Auto-Scale自动按需开关所需资源
任务一键提交,仿真结果可视化
自研DM工具,高效传输仿真数据
仿真成本自动统计、分析、优化


扫码免费试用,送200元体验金,入股不亏~

更多CAE电子书
欢迎扫码关注小F(ID:iamfastone)获取

你也许想了解具体的落地场景:
这样跑COMSOL,是不是就可以发Nature了
LS-DYNA求解效率深度测评 │ 六种规模,本地VS云端5种不同硬件配置
怎么把需要45天的突发性Fluent仿真计算缩短到4天之内?
从4天到1.75小时,如何让Bladed仿真效率提升55倍?


工业仿真研发平台:
光电兼修的Alpha Cen,如何应对上升期的甜蜜烦恼?
国产调度器之光——Fsched到底有多能打?
研发/IT工程师双视角测评8大仿真平台,结果……
八大类主流工业仿真平台【心累指数】终极评测(上)
2023仿真宇宙漫游指南——工业仿真从业者必读


近期重大事件:
速石科技出席ICCAD2023,新一代芯片研发平台助力半导体企业缩短研发周期
速石科技与芯启源开启战略合作,联手打造软硬件一体芯片研发云平台
速石科技作为特邀服务商入驻IC PARK,合力打造集成电路产业新生态
速石科技成为国家“芯火”深圳双创基地(平台)战略合作伙伴,推动国产EDA公共技术服务云平台建设
速石科技联合电信、移动、联通三大运营商,为国家数字经济转型注入新动力

相关推荐

微信扫一扫

微信扫一扫

微信扫一扫,分享到朋友圈

【案例】从“地狱级开局”到全球首款液氧甲烷火箭,我们如何助力蓝箭冲破云霄
返回顶部

显示

忘记密码?

显示

显示

获取验证码

Close