15小时虚拟筛选10亿分子,《Nature》+HMS验证云端新药研发未来

一种新药从开发到获得批准平均成本为20亿-30亿美元,至少耗时10年

这句话,药物研发领域的人大概都听累了。

为什么这么难?

1. 湿实验昂贵而费时;

2. 初始化合物命中率低;

3. 临床前阶段的高损耗率。

今年3月,哈佛大学医学院(HMS)的研究人员在《Nature》杂志发表了论文《An open-source drug discovery platform enables ultra-large virtual screens》,描述了一个叫做VirtualFlow的开源药物发现平台,能通过云端整合海量的CPU对超大规模化合物库进行基于结构的虚拟筛选,提高药物发现效率。

论文作者Christoph Gorgulla称,在一个CPU上筛选10亿种化合物,每个配体的平均对接时间为15秒,全部筛完大概需要475年,而HMS利用VirtualFlow的平台,调用160000个CPU对接10亿个分子仅耗时约15小时,10000个CPU则需要两周。

听起来非常吸引人。

抱着给某CRO公司虚拟筛选的7.8亿个分子,我们心里有点高兴。

当时,我们调用了云上几万个core来筛选,计算时长也仅花费了3-13个小时(每个Core上所需时间不一样)。

限于算力,或者高效灵活地调用大规模计算集群的能力,当前的虚拟筛选通常仅采样百万到千万个分子,而事实上目前可用于药物发现的有机分子已经超过10的60次方。

注:湿实验室(Wet Lab)主要靠的是做实验,干实验室(Dry Lab)主要是计算机模拟和计算。

HMS的论文主要论证了两点:

1、虚拟筛选的规模越大,筛选的化合物越多,真阳性率越高;

2、线性扩展能力+云平台=无限可能。

超大规模筛选可提高真阳性率

论文推导了真阳性率与所筛选化合物数量的的函数关系的概率模型,证明:化合物的最高打分随着规模增加而提高。

作者分别从10万、100万、1000万、1亿、10亿个化合物中进行了5次筛选,挑选了得分最高的前50个化合物进行对比,从图中可以很清楚地看到筛选的规模越大,得分越高(位置越靠上)。

虚拟筛选规模可以通过两种不同的方式提高初始命中的质量:

1. 通过识别具有更紧密结合亲和力的化合物,从而降低剂量,减少脱靶效应;

2. 通过发现具有更好的药代动力学和/或更少固有细胞毒性的化合物。

为了验证大规模筛选的准确性,研究人员选择了肿瘤研究领域热门的KEAP1蛋白作为虚拟筛选靶点,对含有13亿配体的数据库进行了虚拟筛选。通过两个阶段的筛选,HMS选出了约1万个打分优秀的分子。

随后,研究人员从成药性、配体效率、化学多样性以及获取难度等方面在这约1万个候选分子中挑选了590个苗头化合物进行活性验证,最终给出了两个活性达到毫微摩尔级的代表性化合物iKEAP 1和iKEAP 2的多种实验结果,验证了VirtualFlow在对接10亿以上分子量时的高效性。

线性扩展+云平台=无限可能

可线性扩展的意思是说,处理器数量增加一倍,筛选能力也会增加一倍。

为了论证这一点,HMS在本地和云端均进行了测试

本地计算集群LC1由18,000个CPU(分别为Intel Xeon和AMD Opteron处理器的不同型号)异构组成;本地集群LC2上则有30,000个英特尔Xeon8268处理器。

云端则选择了GCP和AWS,最多调用了160,000万个CPU(作者并未阐述在云端使用的CPU型号)。实验表明VirtualFlow在多种情况下均体现了良好的线性可扩展性,具体可看下图(图中并未描述平台在AWS上的表现)。

而这种近乎无限的线性扩展性意味着什么?

即便在今后的实际应用中并行数百万个内核,VirtualFlow的性能效率也不会受到其他因素的拖累。如果你拥有一个300核的计算机集群,你可以在六周内筛选1亿个化合物,而如果你有1,000核,那么两个星期内就可以完成筛选。

这个开源的VirtualFlow平台到底是个啥?

这个项目由哈佛大学医学院牵头,整体仍处于较新的阶段。VirtualFlow平台旨在利用超级计算能力并行筛选潜在的有机化合物结构,以寻找有希望的新药物分子。

VirtualFlow平台主要分为VFLP(配体制备)和VFVS(虚拟筛选)两个模块,VFLP负责分析目标的化学空间构型(图中上半部分的蓝色箭头),再由VFVS根据事先预设好的靶点经过一次或多次虚拟筛选之后,最终获得先导化合物。

目前已知的平台特性包括:

1. 用Bash编写,完全开源、免费;

2. 目前支持的应用包括:AutoDock Vina、QuickVina 2、Smina、AutoDockFR、QuickVina-W、VinaXB和Vina-Carb;

3. 暂时不支持GPU;

4. 支持AWS、GCP、Azure在内的主流云计算平台。

这很棒。

但开源平台,不是你想拥抱就能拥抱。

VirtualFlow拥有较高的使用门槛,你可能需要懂点代码,懂点调度器,再懂点集群,还要熟悉各个云平台等等。

药物研发向来是皇冠上的明珠,HMS这篇论文验证了应用云平台的确能带来新药研发效率的提升,时间和金钱成本上的大量缩减。

中国人自己的创新药+云,我们可以期待一下。

相关阅读

>> 【2020新版】六家云厂商价格比较:AWS/阿里云/Azure/Google Cloud/华为云/腾讯云

>> 2019-2020春江云暖你先知,CAE/EDA/高校等CloudHPC领域年均复合增长率超21%

>> 上榜啦~花费4小时5500美元,速石科技跻身全球超算TOP500

速石科技致力于为 生命科学、 半导体汽车/智能制造高校科研人工智能互联网金融 等领域的企业提供定制化的上云解决方案 。

相关推荐

发表评论

电子邮件地址不会被公开。 必填项已用*标注

微信扫一扫

微信扫一扫

微信扫一扫,分享到朋友圈

15小时虚拟筛选10亿分子,《Nature》+HMS验证云端新药研发未来
返回顶部

显示

忘记密码?

显示

显示

获取验证码

Close