速石短评:Novartis新世代HPC系统的十大策略

Novartis 诺华制药一直是速石极为关注的一家公司。在我们心目中,Novartis在IT技术与制药业技术大融合方面的革新,一直是业界排头兵,堪称楷模。

5年前,Novartis与AWS发布的一个公开案例就深深震撼到了我们:

“We completed the equivalent of 39 years of computational chemistry in just under 9 hours.”

- Steve Litster, Ph.D., Global Head of Scientific Computing

不到9小时,我们完成了相当于39年的化学计算。

5年前,在很多人脑海里,“Cloud Computing云计算”这个概念才刚刚萌芽,而作为拥有百年历史的制药界巨头,已经开始运用云的能力来赋能其核心药物研发过程

让我们回顾一下这个案例:

Novartis的NovatisInstitutes for Biomedical Research’s (NIBR) 部门成立的初衷就是为了针对特定疾病提供一整套治疗和预防药物,从而大幅度提升生命的质量。

截至2013年,NIBR在全球拥有6000名科学家,同时进行着130个药物研发项目,主要聚焦于不同疾病所公有的分子路径研究。

传统上看,一个创新药物从开始研发到最终面世,往往需要10年-15年的时间,其间消耗的成本在20亿美元以上,同时失败的风险巨大。为了应对这一挑战,NIBR决定通过新一代的HPC系统来大幅度缩短研发周期。

2013年,Novartis启动了一个针对某一常见癌症的化合物筛选的项目,需要在一周时间内完成千万个化合物的筛选工作。根据简单的估算,如果依靠Novartis自有的IT环境,他们可能需要50000个CPU核,总体成本可能接近4000万美元。

幸运的是,公有云服务的出现,让这样的问题迎刃而解。

Novartis和AWS以及Cycle Computing(后来被微软收购)一起合作,为了这个项目,同时运行了10600个SPOT Instance,共计87000个CPU核,从而在短短9个小时以内完成了这项历史性的壮举,而其硬件的成本,仅仅是4000多美元

5年的时间如白驹过隙,2018年底的AWS Re:Invent 大会上,Novartis又出现在讲台上。

这一次,Novartis给出了他们对HPC以及新兴IT技术的进一步思考——“关于混合架构环境下的HPC系统的十大策略”:

Portability .

设计所有新的业务流程以及后台支撑的基础架构,而这些应该与物理站点解耦。

速石短评

软硬件平台解耦是实现新一代混合HPC架构的必要条件,也是避免Vendor Lock in的合理措施,虽然会有一定的工作量,但所获得的灵活性绝对绝对对得起前期的付出。

Hybrid .

同时使用自有的数据中心以及云服务来满足HPC计算的需求。这两者之间的选择取决于预设的系统运行原则(time-to-value,成本,能力以及物理限制等等)。

速石短评

混合云是HPC的大势所趋,on-premise平台和Cloud各有优势,缺一不可。而HPC workload的分配应该是策略驱动(Policy-driven) 和高度自治化(Autonomous)的,成本,性能,安全,物理距离都是可以考量的因素。

虽然不知道Novartis已经能达到什么样的程度,但相信这一大方向是不会错的。

Multi-cloud with preferred vendor bias .

如果需要使用云资源,缺省情况下使用首选的云服务供应商。如果其它的云供应商在某些方面有明显优势,则可以同时采用多家云供应商。

速石短评

Multi-cloud会给HPC算力的调配带来更多的灵活度和更大的规模,从而最终用户可以获得更好的成本结构和性价比。

当然作为Novartis这样体量的客户,一定会有一家首选的战略合作云供应商,也可能会因此获得更好的价格和支持。而对于小一些的客户,preferred vendor bias就未必是必要的了。

Two centers .

将自有的HPC资源环境分成两个集群:一个在美国,一个在欧洲。

速石短评

Novartis家大业大,自家的IT环境可以轻松的做到多站点。但对于一般用户而言,这一点实现起来不易。

但其思路值得借鉴,那就是高可用性和冗余,同时计算资源更加贴近最终使用者。正在兴起的“边缘计算(Edge Computing)”也许是可以利用的工具。

Lease .

将软硬件采购模式调整为以租赁为核心,从而能更有效的跟踪和适应计算需求以及IT技术的快速变化。

速石短评

“租”在很多时候会比“买”要好,这一论断对于企业IT环境而言,越来越不言而喻。

在中国,个人和公司对“资产”的追求有着一种偏执,而这其实会大大降低自身的效率和灵活度,也是对社会资源的一种浪费。大家可以再仔细想想这条策略的本质。

Environment isolation .

HPC基础架构应该独立于一般的IT环境,并且应该为科研需求单独优化。

速石短评

国内绝大部分客户,研发使用的HPC环境是和企业其他IT应用在同一基础架构下运行的,这本身可以提高资源利用率,但也使得HPC环境的隔离和调优变得很困难。一个切实可行的解决方法是对HPC的应用和功能进行封装,实现软件定义的HPC架构。

Stage data .

HPC环境应该只处理中间数据(Staged Data)。所有数据应该被复制进HPC系统,计算完成,再复制出去。数据复制传输的工具应该尽可能的好用。

速石短评

这一策略,没有多年的HPC运营经验,是提不出来的。为了让HPC环境变得高效而易于管理,数据生命周期管理的工作应该由其它独立的平台来完成。

Shared cost model.

HPC基础架构的成本应该由HPC团队来承担,而最终用户有权根据自身的业务需要来负担动态成本。

速石短评

好羡慕Novartis,能提出这样“乌托邦”的思路。不过进一步细想,这个策略在一般公司落地也不无可能。

针对国内的商业环境和公司组织架构特点,我们建议在HPC项目上,使用部门应该承担更多的角色。因为HPC和业务及研发的关联是如此紧密,完全可以被视为研发的生产资料,而非IT平台。使用部门提出具体需求,负责HPC整个项目的执行,并承担预算,IT部门协助提供技术支持,应该是一个更现实且更高效的实现路径。

Enable and empower users .

建立支持服务,以更好的服务于最终用户,使不同技能级别的用户都可以高效地以自服务方式使用HPC服务。

速石短评

自服务Self-Service是HPC在功能方面演进的思路,一套好的HPC平台,在用户体验层面,应该切实降低业务用户的使用门槛和学习曲线,应该尽量的不改变业务用户日常操作的方式。

Planned recurring reviews .

定期回顾这些策略的关键元素,以决定是否需要调整。

速石短评

不得不佩服老外的思维方式,永远是具备了严密的逻辑性,任何的方法论,都能形成一个自我迭代更新的闭环。当然,业务需求和技术供给,永远是动态变化的,不排除未来出现新的技术或应用模式(比如,边缘计算),因此定期回顾是应有之义。

看得出,在过去的5年里,Novartis在HPC on HybridCloud这方面有了更多的经历和经验,能给出这样精辟的总结,实属行业之幸。

- END -


关于我们:
速石科技专为有高算力需求的企业级用户提供一站式算力运营解决方案,帮助用户提升10-20倍业务运算效率,降低成本达到75%以上,加快市场响应速度。目前主要应用领域包括药物研发、基因测序分析、半导体行业的EDA仿真及电路设计、汽车行业的自动驾驶开发、虚拟碰撞试验以及AI人工智能。

想了解更多,可添加小F微信(ID:imfastone)

文章推荐:

>>AWS、阿里云、Azure、Google Cloud、华为云、腾讯云 各种云服务器价格收费对比(上)

>>云资源中的低成本战斗机——竞价实例,AWS、阿里云等六家云厂商完全用户使用指南

>>全球半导体行业上云格局一览和十个上云实践问题的过来人解答

相关推荐

发表评论

电子邮件地址不会被公开。 必填项已用*标注

微信扫一扫

微信扫一扫

微信扫一扫,分享到朋友圈

速石短评:Novartis新世代HPC系统的十大策略
返回顶部

显示

忘记密码?

显示

显示

获取验证码

Close