帮助CXO解惑上云成本的迷思，看这篇就够了

上云=便宜，不少人脑子里都有这么个简单粗暴的等式。这种抛开场景谈结论的做法，很容易误导部分对云不太熟悉的人。

当然，我们能理解云这个概念在中国推广早期阶段：拿便宜说事虽可耻，但有用。但现在这阶段早过了，我们来刷新一下。

今天这篇，就是给各位CXO大佬认真算算上云这笔账。努力让大家上云之前心里很有数。我们给出七种视角，各位大佬根据企业自身情况做判断：

实际支出成本
浪费的成本
隐性成本
机会成本
潜在风险带来的可能损失
潜在机会带来的可能收益
企业现金流

先说结论：

1. 企业上云并不是直接把本地数据中心生态系统搬到另一个地方，是一个涉及资产与成本，当下与未来的综合决策，是否便宜取决于具体应用场景；

2.算账这件事，并不是一场本地和云之间的battle，混合云是企业最常用的形态。毕竟，小孩子才做选择，大人全都要。

但是本地和云还是有根本的差别，两者站的视角不同，关注的要素自然也不一样。立足于本地，是从一个中短期静态，长期动态的视角，最关心的是公司既有资产利用率最大化。立足于云端，是从一个贴合业务需求曲线持续动态变化调整的视角，追求的是公司业务成果的最大化；

3. 云的成本结构高度依赖于自动化和智能化的运营能力。如果全手动，肯定不便宜；

4. 效率的提升带来TCO的降低才是计算云成本的正确思路。（TCO-Total Cost of Ownership 总拥有成本：包括资产的所有关联成本）

实际支出成本

实际支出成本：看得见摸得着

这一块过于直接，大家算得也是最多的，就不展开了。

本地指的主要是基础建设成本和维护人力成本，包括：硬件，人力，水电，机房，机架，再加上硬件升级，软件升级等等。

本地建设的时间维度我们放到隐性成本里。

云上的资源和服务：用户根据需要买云资源和需要的服务，管理维护升级都云厂商来管。当然，IT专业人员还是需要的，这个后面我们会讲到。

浪费的成本

本地的浪费

A.需求波动不可测，不是浪费人，就是浪费机器

为了保证最大化本地资产利用率，本地到底需要建设多大规模的数据中心几乎不可能准确预测。随着项目数量的增加，项目进行的不同阶段，需求量往往会出现很大波动。通常，使用率很高的阶段与很少使用或不使用的阶段交替出现。

这张最初源自Cadence的图，几乎完美诠释了这种波动导致的浪费情况。

黄色表示本地资产规模，蓝色区域表示资源需求量。过相对长一段时间会追加一批机器，再过一段时间发现不够了会再追加一批。

在01和02两个时间段，不是研发人员因为没资源可用，只能排着队喝着咖啡苦苦等待。就是需求量下来了，大量资源被闲置。

虽然这张图是半导体行业大佬画的，但有非常广泛的适用场景，尤其是在HPC高性能计算领域，比如药物研发，CAE工业仿真，人工智能等等。

B.不同部门需求虚报，浪费机器

一方面，从申请资源到分配往往有一定时间差，另一方面还是因为需求测不准。部门向公司提出申请时往往倾向于多申请一些，或者干脆要求独占资源，以确保本部门在需要的时候有足够的资源。但实际利用率却未必高，造成浪费。

C.本地资源的利用效率和公司IT专业人员的技术水平也直接相关

云上的浪费

A.云的收费模式和本地完全不同，不同云厂商之间也有不少区别。相当一部分企业可能在还没搞懂规则的情况下，费用就上去了。

单说云端实例资源，常见计费模式分为三种：

预留实例：相当于批发，买定离手。主要针对中长期稳定需求，优点是价格整体比较低，缺点是资源必须长期持有，灵活性差。

按需实例：相当于零售，即买即用。针对短期弹性需求，按小时计费，灵活精准，避免浪费，但价格比较高。

可被抢占实例：又称竞价实例，相当于秒杀，手快有手慢无。作为云资源中的低成本战斗机，最低可达到按需实例价格的10%。随时可能被抢占，需要有一定的技术实力才能使用。怎么合理地用不同云的不同计费模式，确保成本最小化。这个工具包可以先了解一下。

B.手动模式，浪费是不可避免的首先，上面说的竞价实例，手动模式就使用不了。这损失可不小，具体可参考：云资源中的低成本战斗机——竞价实例，AWS、阿里云等六家云厂商完全用户使用指南

然后，手动模式在云上开关机，经常会发生机器没有及时关闭导致的浪费，别小看这一点，浪费真的很严重。24小时盯着？真不是人该干的事。

手动模式已经不能满足企业优化云支出的诉求，自动模式可以快速适应环境变化并不断优化使用过程。预告一下：我们有个优秀的Auto-Scale功能，能基于多云环境，使集群规模根据用户计算任务的算力需求，自动增加或减少，以后开单篇仔细讲。

C.实际业务需求与使用资源不匹配导致的浪费

比如可能申请了超出实际需求的内存过大或CPU过多的资源（大和多，就意味着贵）。

D. 不同云厂商各自优势合理配置，减少浪费

隐性成本

隐性成本：经常被忽略，但支出也不小

本地的隐性成本

A.本地数据中心建设与升级的一系列问题：规划、建筑、施工、培训，是一个非常复杂的过程，每一个环节都不能出问题。同时，必须与内部客户合作以确保服务的连续性。

B.不同业务部门资源的抢夺

C.业务部门和IT部门的沟通成本

用云的隐性成本

A.云本身使用难度和门槛

目前主流云厂商所提供的产品线已经相当完善，有不少面向行业的解决方案。但产品和服务数量实在是过于庞大，入口也很多，最终导致操作层面的复杂性。

再考虑到不同云厂商的使用方式还不一样，学习成本挺高的。

B. 云上超大规模集群的调度能力

这一条主要是考虑到云上近乎无限的资源池总量。超大规模集群调度的要求自然比普通集群高，就像做一桌满汉全席和家常小宴自然要求不一样。

超大规模集群，我们先问买不买得起，再问买不买得到，然后才是怎么管理，怎么调度，怎么考虑网络，怎么安排存储。

参考：花费4小时5500美元，速石科技跻身全球超算TOP500

C．如果考虑混合云场景IT自动化管理，或者，多本地+多云场景IT自动化管理，这些都是难点。

D.迁移成本？？

传统场景下，如果企业具备一定本地集群，上云确实需要一定工作量和迁移成本，这包括网络打通、数据、作业、应用迁移和测试等。规模越大，工作量就越大。

但对我们来说，迁移成本极低。我们是原生在云上的，在用户的本地和云上建了一层，只需要考虑数据的流动，不需要考虑整体迁移，成本极低。

机会成本

机会成本：被放弃的选择中的最高价值

资金机会成本

这个钱如果不用在本地建设，花在别的地方能带来什么？

A.云上用最新型机器带来的效率提升，时间周期缩短

本地机器更新周期一般以年为单位，特殊需求可能申请特别审批，时间流程也短不了。像“财大气粗”的云厂商一样，最新型的机器那边上市，这边就上架。基本是不可能的。

最新型机器的好处，不用说大家都懂。

B.云上资源池的超大规模

前面TOP500我们用的是CPU，再来看看比较难获取的GPU。

2019年11月，SDSC圣地亚哥超级计算中心联合威斯康星州冰立方粒子天体物理中心在AWS，Azure和Google云上一共调度了超过5万GPU完成一次仿真模拟计算试验。

这次计算，基于云的集群提供了全球排名第一超算中心峰值90%的性能。

详情看2019-2020春江云暖你先知，CAE/EDA/高校等CloudHPC领域年均复合增长率超21%

C.云上资源类型的多样性，如下图：

时间机会成本

时间机会成本：时间如果省下来，能带来什么？

我们说过，云有一个奇妙的特性：花同样的钱，你可以让100台机器跑1个小时，也可以让1台机器跑100个小时。然后呢？

后半句我们上次没讲。节约的99个小时，你可以做些什么？

哈佛大学医学院利用云平台，调用16万个CPU对接10亿分子仅耗时15个小时，如果只有1万个CPU则需要两周。具体参考15小时虚拟筛选10亿分子，《Nature》+HMS验证云端新药研发未来

新药研发耗时长，成本高，一直是行业内公认的。

时间值多少钱，各家药企应该心里有数。

换一个场景，半导体怎么样？

芯片设计越来越复杂，周期和人数都在增加。过去1000人干一年，现在2000人干两年。华为曾向媒体透露7nm的麒麟980研发费用远超业界预估的5亿美元。

而流片出了名的烧钱，越先进工艺流片的风险和费用越高。台积电第二代7nm EUV工艺的流片费用已经是创记录的3000万美元、大概2亿人民币左右。而5nm全光罩流片费用又上涨50%，大概要3亿人民币，而且还不包含IP授权费。

在这里，时间又值多少钱？

EDA上云实证：HSPICE仿真任务，如何用云实现周期提升42倍，从1个月缩短至17小时？

再算算本地资源采购和建设周期所耗时间，资源不足时，项目进度被延迟的时间，是不是有点心痛。

用这些时间可以换取效率提升，周期缩短，业务扩张，市场领先，技术能力提升。

潜在风险带来的可能损失

云上的安全风险一直是大家最担心问题，没有之一。

安全其实是一个相对概念，边界会随着时间推进而发生变化。就像支付宝刚出现的时候，大家还是只敢把钱放在银行一样。

A.本地的风险和云上的风险，互为半斤八两。

引用一下之前的全球半导体行业上云格局一览和十个上云实践问题的过来人解答，QST和AFRL针对这一问题的回应：

QST：你不可能确保拥有最优秀的IT和最好的安全人员。如果你在本地搭建你的整个设计系统和环境，服务器都在本地，我可以跟你保证你的安全措施肯定是很差的，很容易被外部破解。如果你的IP在云上开发和存储，比如AWS，比如cadence，你知道AWS在云上遵循的安全准则，肯定比在本地要安全多了。

AFRL：尽管我们是云怀疑论者。但大的云厂商在云安全上的控制是对外公开的，每个人都知道你能得到什么，你能够审计一切安全文件。而像跨区域的项目，不同的研究人员分散在不同的地方，还有外包商等等，你很难知道大家各自的IT情况怎么样。而把大家拉到一起，能确保大家在同一个系统里，遵守了同一套准则。而不是制定一套准则，寄希望于他们能按这个标准实施。

B.企业的自建数据中心很难做跨大区域的异地备份，容灾能力有天然瓶颈

C.针对云上安全问题，云安全责任共担模式已在业界达成共识，亚马逊AWS、微软Azure、阿里云，腾讯云等企业均采用了与用户共担风险的安全策略。

云服务提供商负责组建专门团队保护其服务的底层基础设施不受威胁、漏洞、滥用和欺诈的侵害，用户负责安全功能的恰当配置，安装更新和确保雇员不把敏感数据泄露给未授权方等。