【案例】速石X腾讯云X燧原:芯片设计“存算分离”混合云实践

“上云正成为芯片设计产业的一个趋势。”燧原科技IT负责人Vincent近日在接受数智前线采访时表示。


不久前,速石科技联合腾讯云为芯片设计企业燧原科技,打造了一个面向HPC(高性能计算)场景的行业解决方案。该方案基于速石科技的一站式芯片设计研发云平台,快速自动地调用腾讯云IaaS资源构建仿真环境,满足了燧原科技的业务弹性需求,提升了整体的项目研发效率。

01 芯片设计产业上云正在成为趋势

燧原科技作为国内领先的AI芯片设计企业,当初创造过仅用18个月就将技术门槛很高的AI训练芯片一次性流片成功的纪录。


但随着工艺制程越来越先进,燧原也面临着IT资源和效率无法满足业务需要的矛盾。


芯片的研发周期通常都比较紧张,尤其是大芯片,中后期经常是按天来做任务排期。而行业内普遍采用的是自建IDC(数据中心),腾讯云高性能计算行业高级经理Kevin告诉数智前线,这么做主要是当时的芯片工艺没那么先进,对算力的需求也没那么大。


而且,燧原科技IT负责人Vincent透露,芯片项目在前期会做大量论证和规划,包括需要多少算力和存储。但问题在于,在项目推进过程中经常会有变更,包括制程的改进、功能变化及性能指标调整。这种变更会造成大量突发的算力需求。如果要通过采买服务器或者是租借服务器的方式来满足需求,从部署、上线测试,需要相当长的一段时间业务团队才能用上这些算力,影响研发进度。


这样的效率显然是无法接受的。尤其是这几年的疫情导致采买硬件的周期不可控,但芯片项目周期是明确的,这就意味着,芯片设计企业要面临一个不确定的IT资产的风险。比如一天之内要准备一两百台服务器,只有上云才能够做到,如果是原有的IT流程,从确认服务器型号到采购,从安装服务器上机柜到机房运维,最快也要8到12周,而且IT资金占用成本太高。


“这是我们上云的一个契机吧。”Vincent提到。

大芯片设计周期超过12个月,包括产品定义、前端设计、IP验证、SOC验证、综合、布局布线等多个阶段,不同阶段对算力的需求不相同。验证环节是算力使用的高峰期。所以,燧原也选择将部分验证搬到云上,“前端IP验证的过程基本都上云了,后续我们肯定是希望把整个弹性的部分尽量都上云。”燧原科技项目负责人Eli说。


燧原有大量弹性作业的需求,比如需要在同一个时间配置数百台的服务器,对稳定性和实时响应的要求非常高。目前,腾讯云联合速石可以做到让客户在1小时内快速把仿真作业跑起来,让客户在有限时间更频繁地去跑仿真和验证任务,提高流片前的成功率。同时基于速石对业务场景优化和CAD方面的能力,帮助燧原整体Job运行时间降低了50%,加快了整个项目的研发进度。


而且,芯片设计行业如今已经进入到7nm甚至3nm时代,一颗芯片上会有几百亿级的晶体管,它对算力的需求会大大增加。这就意味着,芯片企业在高峰期的算力需求非常明显,燧原等芯片设计企业开始寻求弹性的算力解决方案。
“上云是一个行业趋势。”Vincent说,“都在尝试,但全部都上云还需要一些时间。”

02 安全、效率和成本的铁三角

芯片设计企业最核心的是各种芯片代码和知识产权,相比于很多行业,这个赛道对数据安全有着更高的要求。


燧原科技在上云的态度是,所有的数据要放在本地,只有弹性的部分在云上,中间不做数据存储。所以,速石和腾讯云在燧原的建议和启发下,大家探索出了“存算分离”的混合云计算架构,并且花了五六个月时间去验证。它能够在保障核心数据、代码存储在本地的前提下,通过速石平台与本地计算集群打通,使得计算任务能够灵活选取本地或云端算力队列。


速石高级技术总监陈琳涛透露,此次采用的存算分离方案本质上是一个混合云方案,速石提供的一站式芯片设计研发云平台可扩展到本地和云上,在纯云、纯本地、混合云三种模式下都可交互。从技术范畴来说,速石的存算一体解决方案已经十分成熟。但在燧原的项目中,该方案面临进一步的技术挑战,例如在整个混合云建设架构上,对网络的时延、带宽的吞吐率和效率的要求都非常高,这就要求三方共同在这个项目里寻求最优的架构布置方式。


Vincent坦言,因为做了存算分离的架构,数据在本地,所以企业对安全的担忧会有降低。


以前的存算分离,是在同一自治域内,比如都在腾讯云上实现。但现在燧原的方案是在两个自治域内,混合云部署,云上一部分,云下有一部分,云下是燧原在做,云上的部分是速石科技和腾讯云来做。不过,这增加了物理距离,而且各种接口的调度变得更加复杂,更加考验云厂商和合作伙伴的能力。而速石平台不改变用户的使用习惯,让使用者无感地调用云资源,对资源的调用更加便捷,减少上云的学习成本。


速石和腾讯云之前考虑的是直接把客户的数据上云,方便高效。但沟通之后发现,芯片客户对数据安全的要求,还是采用混合云存算分离的架构最为合适。腾讯云目前仅做算力的支撑,速石平台提供自动化高效的环境构建,燧原的代码等企业核心数据都是放在线下。不过,在腾讯云架构师Cedric看来,有些不敏感的数据理论上可以上云,通过缓存技术来提高仿真效率。


Kevin告诉数智前线,早期初创,存量数据和存量资产少,对安全没那么大顾虑,使用全云方案是首选,但规模大了之后,很多企业则倾向采用混合云架构。


而且,很多芯片设计企业以前就有很多IDC资产,如何把原有的资源利用起来,也是企业的诉求,可以比较好的平衡既有资产的投入,同时又兼顾云的弹性、灵活、快捷、便捷。“所以从这个角度上来说,混合云是目前来看一个比较好的选择。”
像燧原并没有将全部业务搬到云上,其中一部分依然用到了本地的算力,比如项目前期运行还是更适合本地已有的算力。事实上,很多芯片设计企业还是以本地为主,云上做弹性的部分。


混合云的部署方式,对IT成本的节约也在逐渐成为共识。


燧原算过一笔账,如果自己采买服务器、自建机房,按照三五年的周期财务进行对比,每个月均摊的成本会比每个月上云均摊的成本更低。但如果从节省时间和人力、提升效率以及整体的综合成本考虑,上云的优势还是非常明显。因为云不需要水电,也不需要自己运维,这部分都是省下来的,而且快速部署和弹性扩容的能力,能让研发人员提高效率,缩短研发周期。


除了采用存算分离的架构,腾讯云联合速石也为燧原等芯片设计客户打造了从终端到云端的完整安全方案。


在终端,腾讯云的零信任安全的iOA方案,可以保障燧原全国各地的研发人员,能无缝体验一致的仿真环境,同时确保终端安全、信息保护以及一些漏洞的保护。


在云端,使用了腾讯的主机安全,保障整个计算环境是安全授信的,通过这个部分确保整个计算过程不会有入侵、数据泄露、勒索病毒等等的问题。甚至是传输层面,腾讯云与燧原之间有一条超大带宽的网络保障,确保了整个传输的通道安全可信。


不难发现,通过存算分离的架构和混合云的部署方案,既满足了对弹性算力和效率的需要,又能满足节约成本和数据安全的需要。而这些正是企业在上云和用云过程中最在意的方面。


目前,“存算分离”的混合云架构已经帮助燧原节省了可观的IT投入,任务并发量可以通过云端弹性同步提高,同时部分仿真任务周期缩短30%~50%。

当然,Eli也提到,现阶段使用这一套三方共创的存算分离方案满足了部分业务在弹性算力使用量上的需求。而下一步我们还要进一步优化,提升使用效率,“如何更高效的利用云上机器,如何契合业务使用进行高效优化,并迁移更多的业务,是我们接下来要做的事情。”


关于fastone云平台在各种EDA应用上的表现,可以点击以下应用名称查看:

HSPICE │ OPC │ VCS │ Virtuoso


- END -


我们有个IC设计研发云平台

集成多种EDA应用,大量任务多节点并行
应对短时间爆发性需求,连网即用
跑任务快,原来几个月甚至几年,现在只需几小时
5分钟快速上手,拖拉点选可视化界面,无需代码
支持高级用户直接在云端创建集群 


扫码免费试用,送200元体验金,入股不亏~

更多EDA电子书
欢迎扫码关注小F(ID:imfastone)获取

你也许想了解具体的落地场景:
王者带飞LeDock!开箱即用&一键定位分子库+全流程自动化,3.5小时完成20万分子对接
这样跑COMSOL,是不是就可以发Nature了
Auto-Scale这支仙女棒如何大幅提升Virtuoso仿真效率?

1分钟告诉你用MOE模拟200000个分子要花多少钱
LS-DYNA求解效率深度测评 │ 六种规模,本地VS云端5种不同硬件配置
揭秘20000个VCS任务背后的“搬桌子”系列故事
155个GPU!多云场景下的Amber自由能计算
怎么把需要45天的突发性Fluent仿真计算缩短到4天之内?

5000核大规模OPC上云,效率提升53倍
提速2920倍!用AutoDock Vina对接2800万个分子

从4天到1.75小时,如何让Bladed仿真效率提升55倍?
从30天到17小时,如何让HSPICE仿真效率提升42倍?


关于为应用定义的云平台:
芯片设计五部曲之二 | 图灵艺术家——数字IC
芯片设计五部曲之一 | 声光魔法师——模拟IC
ICCAD2022】首次公开亮相!国产调度器Fsched,半导体生态1.0,上百家行业用户最佳实践
解密一颗芯片设计的全生命周期算力需求
居家办公=停工?nonono,移动式EDA芯片设计,带你效率起飞
缺人!缺钱!赶时间!初创IC设计公司如何“绝地求生”?
续集来了:上回那个“吃鸡”成功的IC人后来发生了什么?
一次搞懂速石科技三大产品:FCC、FCC-E、FCP
速石科技成三星Foundry国内首家SAFE™云合作伙伴
EDA云平台49问
亿万打工人的梦:16万个CPU随你用
帮助CXO解惑上云成本的迷思,看这篇就够了
花费4小时5500美元,速石科技跻身全球超算TOP500

相关推荐

微信扫一扫

微信扫一扫

微信扫一扫,分享到朋友圈

【案例】速石X腾讯云X燧原:芯片设计“存算分离”混合云实践
返回顶部

显示

忘记密码?

显示

显示

获取验证码

Close