在Google做芯片,是一种什么体验?
一位Google芯片设计师回答:就像小朋友走进了一家糖果店。
IT资源~~得不到的永远在骚动~~要么花更长时间,要么降低对质量的追求,这种无奈的取舍是半导体行业一直以来的痛。
如果说EDA工具的出现是半导体行业的第一次革命,帮助芯片设计人员用更简单的方法从事设计工作,以缩短研发周期,降低设计成本。
那么,云计算可能是第二次产业革命的开端。虽然云计算本身已经出现十年之久,但直到现在,也许才能看出一些端倪。 我们看一下现在的全球半导体行业上云格局一览图(基于最新公开资料整理):
1、 整个半导体产业链核心角色:EDA供应商/ Foundry/Fabless无一缺席,都已经开始上云的步伐。
2、 全球各大云厂商不仅积极拥抱半导体产业,甚至自己主导设计开发云端AI芯片,在产业链中扮演双重角色。
3、 图上只是根据公开资料整理出来的半导体云玩家,更多公司还在冰山之下。这意味着,不光是上云企业与本地企业之间,云上企业之间的竞争也已经暗流涌动。
如果下面这张图代表整个半导体行业对云的接受度,也许我们已经站在跨越鸿沟的边缘:
云有一个奇妙的特性:花同样的钱,你可以让100台机器跑1个小时,也可以让1台机器跑100个小时,但是不同时间消耗带来的结果完全不一样,可能事关生死。
半导体企业上云并不是直接把本地数据中心生态系统搬到另一个地方,是一个涉及资产与成本,当下与未来的综合决策。
而在这场生死之战中,在半导体企业到一朵云或者多云服务之间,速石的角色是什么?
我们辛总给我打了个朴实的比方:假如你要打扫家里,以前你买的是N把扫把,现在你买的是一个智能扫地机器人。地是云服务商扫的,我们主要是智能机器那部分。嗯,话说得有点糙,而且简化得有点过分,大家意会~~
拒绝意会的,欢迎文末扫码联系小F,我们用五个详细案例告诉你我们是怎么解决半导体行业三种模式(纯云SaaS/混合云+多区域/EDA云平台)下不同企业用云需求的。
十个上云实践问题的解答
DAC是集成电路设计界的大聚会,是全球EDA、Foundry、IP提供商的盛会,今年是第35届了。从去年开始,DAC有了专门的“design on cloud” 部分。
如果说去年是云厂商(AWS/Azure/Googlecloud,包括阿里云)和众多IT服务商张开怀抱对芯片公司说:我可以。
过去一年,有了明显变化。
今年6月,我们看到了不少芯片设计公司的身影,他们作为过来人出来现身说法,讲自己上云的那点事儿。
1家Foundry,1家EDA,4家Fabless。
上云的模式是什么?
最开始,为什么选择上云?
上云的挑战主要有哪些?
你觉得EDA供应商准备好上云了吗?
上云的缺点是什么?
对于芯片设计,云厂商已经准备好了吗?
在云上,一切都需要付钱。怎么控制云上的成本?
你觉得在云上设计安全吗?
目前为止,上云的成果是什么?
对后来的上云实践者有什么建议?
上云的模式是什么?
QST:纯公有云模式+AWS为主
AFRL:纯公有云模式+AWS为主
TSMC:OIP VDE虚拟设计环境+ AWS+ Google Cloud+Azure
Cadence:Cadence Cloud Portfolio+AWS+ Google Cloud+Azure
eSilicon:混合云模式逐渐过渡到纯公有云模式+Google Cloud
Astera Labs:纯公有云模式+AWS
最开始,为什么选择上云?
QST:
我们公司是2018年8月成立的,主要做基于MEMS传感器的解决方案。刚成立的时候接到一个客户需求,只有6个月的时间就要Tapeout,根本没有给我们时间搭本地基础架构,所以直接选择了上云。当然,结果非常好,我们成功在规定期限前完成了任务。
AFRL:
不要觉得AFRL是一个大公司,其实我们就是一个独立的小组,更像一个小公司。我在做的这个项目其实是个DOD(国防部)的项目,我们空军这块只是整个芯片项目的PoC。
我们选择云的原因主要原因是完全搭一套本地设计环境周期太长,流程又长又复杂;另一个原因是我们的人员包括了海军、军队、空军研究员和小组,分散各地,搭建一套本地的IT合作环境让所有外部人员远程登录非常麻烦,最好可以有一套无视大家地理位置的解决方案,让所有人尽管分散在各地也能在一起顺利完成任务。
TSMC:
我们2018年宣布OIP云端联盟成立。一方面是受AI/5G等大环境驱动,另一方面,我们不可能永远有足够的本地计算资源,内部我们开始用云端方案来协助芯片设计,既然我们用了,我们就觉得也应该开放给我们的用户用,让他们能受益,不用受资源所限,能更快完成他们的设计。
联系小F(ID:imfastone),获取某Foundry EDA设计云平台模式解决方案
Cadence:
2018年发布Cadence Cloud Portfolio,台积电、亚马逊、微软和谷歌都是合作伙伴。2019年4月,我们发布了CloudBurst平台,6月又发布了Cloud Passport合作伙伴项目。
以前跟我的用户们聊云,基本上一聊到安全就聊不下去了。但现在这个行业的新公司大量涌现,都在认真考虑云这件事,因为的确帮他们省了一大堆麻烦和注意力,不用考虑搭建一套工作流,也不用考虑搭建设计环境等等。
所以现在我感觉趋势是:小公司正在考虑把整个基本架构都换成云,而大一些的公司,正在评估接下来到底怎么走。是做一个单独项目,还是把某项功能放在云上运行,平衡本地和云的资源,这是一个谨慎的决策。
我聊的每一个人都表示对云感兴趣,所以我觉得现在的问题在于什么时候上云,而不在于上不上云这件事。
eSilicon:
2000年成立,在用传统方法做了20年ASIC芯片后,eSilicon决定放弃本地,把整个芯片设计都搬到云上。
我们的转变开始于2014年,当CEO Jack Harding问了一个问题:计算硬件设施到底给我们带来了什么?那时候我们是租的数据中心的机器,设计一枚芯片的过程中,我们至少需要把租用的机器数量翻一倍,这我们实在有点没法接受。那时候,我们的团队才真正开始研究到底要怎样才可以有效使用云资源。
我们现在的目标是:到2020年前,全面上云,我们将成为一个Serverless的公司,不拥有任何硬件。
Astera Labs:
我们公司2017年成立的。关于上不上云,做决定前,我们有三个决策原则:
1、我们想把所有的资源放在创造价值上;
2、本地没有专门的IT团队,这也不是我们的强项;
3、随着公司的成长,我们需要快速迭代。
所以对我们来说,其实选择很简单:
本地+云混合模式:第一时间否决,既要管本地,还要管云,双重头疼
完全本地模式:专业的IT团队,大量的前期投入,只能不断扩张(不能减少),同样否决
Synopsys/Cadence平台:EDA供应商限制了我的工具使用范围,有限的计算架构
纯公有云模式:同时具备规模扩张性和弹性,外包支持服务最后,我们选了AWS,外包IT团队,免去所有头疼的事情。
联系小F(ID:imfastone),获取芯片设计公司混合云+SaaS模式上云解决方案
上云的挑战主要有哪些?
QST:
6个月的时间就要Tapeout,时间非常紧。
AFRL:
希望可以有一套不用考虑大家地理位置的解决方案,让分散在各地的小组成员能在一个环境下共同顺利完成工作。
TSMC:
安全是一切的基础。我们花了两年多时间专心于安全问题,和我们公司的IT部门一起研究怎么和云厂商合作,检测所有细节。现在我们有了云安全资质计划,还有一些安全方面的合作伙伴在我们的云联盟里。
Cadence:
云一种全新的架构。我们在努力朝这个方向前进。
eSilicon:
1、对本地芯片设计工作流最小影响,最好不影响
2、降低IP开发工作负载的成本
3、运行更多的IP仿真
4、云上的集成和运维问题
5、IP安全:公有云上的IP存储
Astera Labs:
1、本地没有IT团队,不想把重心放在核心业务之外的工作任务上
2、最头疼的是在云上管理排队任务。
3、大量并行工作任务意味着大量数据管理,技术资源成为最大的瓶颈
联系小F(ID:imfastone),了解我们怎么帮你智能调度本地及云上资源
你觉得EDA供应商准备好上云了吗?
TSMC:
我们既和各大云厂商合作,也跟EDA供应商合作.当我们尝试在云上做一些互动式的任务,因为我们在台湾,最近的数据中心可能在新加坡,距离有3000公里,不管你怎么优化路由,都会有50-60分钟延迟,这会给EDA工具带来一些压力。但积极的一面在于在过去的9个月时间,EDA合作伙伴都非常配合,找出问题在哪,怎么优化。
我觉得,以前并没有所谓的云使用范式或者标准,所以EDA厂商现在没必要针对云端使用做全面优化。直到有一天大家都在用了,自然就会做了。整体来说,现在使用上没什么问题。这将是我们接下来几年的共同未来目标。
Astera Labs:
EDA工具在云上使用很顺利,当然,也有一些改进的空间。比如,基于云上架构做优化,能够更好地利用云上的各种计算资源,存储服务等。重点提醒:出错容忍度低的应用可以使用云端可被抢占实例。
上云的缺点是什么?
QST:
因为安全的原因,所有的东西必须经过cadence,一切问题都必须提交一个工单,不能直接打个电话或者走到办公室的另一头找IT部门,这会增加一些时间成本。但另一方面这又非常有用,因为一切事情都可以量化,虽然花了一点时间,但问题总是会及时得到解决。这花了我们团队几个月时间来适应,但现在一切都很好。
第二个问题在于,如果你试图评估到底在云上需要多少资源,多少用户,怎么弹性扩张的,这是一个尝试和学习的过程。
你需要增加你的运维团队,你需要在不同的国家做扩张。我们有团队在台湾,有团队在上海,还有外包团队在印度,硅谷也有员工,一直在加人。怎么让这些人在线,你有多少个接口登陆,开了多少个服务器,这中间有很多要权衡的东西。
当你有一大堆验证要做,你能用多少个license,你能有多少计算资源,你是全部都本地拥有,还是考虑成本的原因,减少本地资源,在云上做弹性扩张。这些都需要花时间。
哪怕你有一个好的IT部门和通过VPN连接的弹性计算资源,也会遇到同样的问题。
AFRL:
整体来说,上云是一个积极的体验。如果你的IT部门不熟悉云架构,不了解云的运行方式,这个跨越可能会有点痛苦。它跟在本地完全不一样。云的运行方式不一样,计费模式不一样,存储模式不一样。所以你可能可以在云上运行起来,但如果你只是在云上复制在本地的一切,你可能没办法最大化利用云的价值。
我建议你最好确保有一个不错的懂云的团队。
联系小F(ID:imfastone),了解为什么我们能帮你最大化利用云的价值
对于芯片设计,云厂商已经准备好了吗?
TSMC:
所有的云厂商都针对EDA工作任务推出了新的VM类型,我们不说CPU有多快,我们还要考虑内存有多大,存储IO有多快多有效,我们看的是整个服务包。我们已经对外公布了要在云上做5nm芯片,这给我们云合作伙伴带来了很大的压力,包括EDA合作伙伴。我们和产业内其他伙伴都在一个生态系统里,大家明白我们都需要对方,所以我们的合作从理解各自的需求,在哪里可以增加价值开始。现在我们半导体行业已经吸引了云厂商的关注,我们开始试图与对方合作,提供一些解决方案让芯片设计从业者能够从中受益。
在云上,一切都需要付钱。怎么控制成本?
Cadence:
我们内部也有这样的经历,因为我们也在云上做一些开发工作。我曾经和IT部门的同事讨论过,他们通常低估了跟踪谁在什么时候用了什么服务这件事,而当账单来临的时候,一个工程师可能跑了上千个任务,他们可能也记不清自己用了些什么。这是个值得注意的问题。
关于这个问题,如果只从成本支出的角度来考虑这个问题,很可能会得出这个结论,最具性价比的方式是在本地拥有你的服务器并且100%地使用他们。而我们应该要考虑的是成本和收益的平衡问题。通常,我们都从云上获得了一些商业好处,更快占领市场,获取更多客户等等。这不是一个完全的替换关系,你看看静态的历史数据,就能比较出结果。
eSilicon:
在ASIC芯片的商业世界里,成本就是一切。过去,当你的工程师要用大量的资源,都是按照过去预计未来用量。现在用了云,很简单,我们就直接规定某个人这次只能用一定量的资源。
联系小F(ID:imfastone),了解我们怎么帮你优化及控制云上成本
你觉得在云上设计安全吗?
QST:
作为一家创业公司,我对安全的定义有些不一样。我们大部分时间是和AWS合作。作为一家做创意设计和IP的公司,你希望保障自己的全部。但现实情况是,你不可能确保拥有最优秀的IT和最好的安全人员。
如果你在本地搭建你的整个设计系统和环境,服务器都在本地,我可以跟你保证你的安全措施肯定是很差的,很容易被外部破解。如果你的IP在云上开发和存储,比如AWS,比如cadence,你知道AWS在云上遵循的安全准则,肯定比在本地要安全多了。
目前阶段,我们完全不担心安全这个问题,但这不意味着如果有一天我们成长壮大之后我们不会改变。
AFRL:
尽管我们是云怀疑论者。但大的云厂商在云安全上的控制是对外公开的,每个人都知道你能得到什么,你能够审计一切安全文件。
像我们这个项目,不同的研究人员分散在不同的地方,还有外包商等等,鬼知道他们的IT情况怎么样,我们把大家拉到一起,能确保大家在同一个系统里,遵守了同一套准则。而不是制定一套准则,寄希望于他们能按这个标准实施。谁知道结果会怎么样?
目前为止,上云的成果是什么?
TSMC:
台积电的OIP 云端联盟现在已经跟三大EDA供应商:Synopsys/Cadence/Mentor,以及云厂商AWS/Azure/GoogleCloud正式合作,运用云端技术辅助芯片开发。
已经拥有台积电云端平台使用经验的SiFive位于美国硅谷与印度Bangalore的团队,通过云端进行设计,在不到三个月时间就完成了整套前后端设计,创下速度上的新高记录。
eSilicon:
1、经过测试,云上的资源比原来本地硬件设备表现提升了15%,同时能跑的任务比原来多了一倍。
2、云运维成本跟原来相比大大降低,我们估计了一下如果有一个类似的本地解决方案达到现在的效果,大概要花公司几百万美元。
3、没有闲置资源,可以使用更多弹性资源,无限档案存储
4、加速芯片设计完成周期,能完成更多客户需求
5、不受本地资源限制,避免硬件投资
6、缩短推出市场的时间,提升设计结果质量
7、云上有天然自带监控系统的架构,更容易追踪记录,进行用户管理和监控
8、未来发展机器学习的可能性
Astera Labs:
1、过去存储怎么使用都不够,现在可以无限扩展
2、工作安排可以排得比以前更多
3、我们充分利用了云资源的可扩展性和最新型的实例类型
4、可以根据不同任务使用独立的云资源
5、我们可以做出更高质量的芯片
联系小F(ID:imfastone),了解我们用户案例的上云表现
对后来的上云实践者有什么建议?
eSilicon:
1、把PDK、EDA工具和管理服务在云端做备份,减少本地和云端数据传输
2、只选取数据结果的一小部分在云端和本地同步
3、为了安全,云上的数据暂存区需要更高频的清理
4、多云/多区域的资源整合和调度,对使用云上的可被抢占实例很重要,能降低成本
5、在云上必须使用SSD和高速存储,提供足够的扩展性和性能
6、不同的任务有独占的分布式文件系统,提供必要的性能和服务质量
7、拥抱云上的弹性资源,不要用原来使用本地数据中心的方式来用云
8、根据不同的任务类型选择更优化的云上资源
9、如果本地就有license不够,任务排队的问题,这会在云上花更多的钱(排队也花钱)
10、善于使用可被抢占实例等折扣
11、对数据分层,选择不同存储方式:SSD、HD和云上存储
12、注意:不同账户在云上使用资源是有限额的
Astera Labs:
1、一定要用可被抢占实例
2、使用成本是一定会被低估的,所以在快/好/便宜三个标准之间,按自己的情况,选择两个就够了
《六家云厂商价格比较:AWS、阿里云、Azure、Google Cloud、华为云、腾讯云》的下篇就讲六大云厂商的可被抢占实例,建议关注一下我们,大约下期发~~
Cadence:
1、花足够的时间理清楚,公司用云的优先级是什么,这些讨论/分析/研究接下来会节约你很多时间。因为不同人对云的期待可能不一样,如果没有达成一致,会浪费很多时间。
2、确定你的使用模式是什么,是一个完整的项目,还是一个功能,还是为了合作。明确这一点,你能用正确的架构来解决你的问题。
3、不只是在你的公司内部,包括Foundry,包括工具提供商,第三方IP供应商,会涉及到大量协作。
作为半导体行业从业者你对云的接受度在哪个区域呢?
- END -
关于我们:
速石科技专为有高算力需求的企业级用户提供一站式算力运营解决方案,帮助用户提升10-20倍业务运算效率,降低成本达到75%以上,加快市场响应速度。目前主要应用领域包括药物研发、基因测序分析、半导体行业的EDA仿真及电路设计、汽车行业的自动驾驶开发、虚拟碰撞试验以及AI人工智能。
想了解更多,可添加小F微信(ID:imfastone)
文章推荐: