创新药内卷严重,九死一生,而且烧钱速度惊人。
不管Big Pharma还是Biotech都压力山大,销售额、利润要涨,研发费用要边涨边控。
Biotech求活下去,求快速具备造血能力;
Big Pharma求踩稳创新药这一条新成长曲线,探索国际化的发展模式。
如何做到:
速度要快,姿势还要帅?
第一:堆新药研发人才
自己培养和直接抢人,这两条路一般同时进行。
培养一个新药研发人才和培养一个飞行员差不多,得用昂贵的试飞成本才能换来一点感觉。
外部就从跨国药企抢,从大厂抢。既要懂研发,还要懂市场,最好还要懂资本的多面手,最重要的是,要留得住。
第二:外包,买现成管线
一定程度上解决问题,快是快了,但终究不是长久之计。
而且核心知识产权不在自己手上,姿势不够帅。
第三:堆CADD/AIDD人才
关于为什么CADD(计算机辅助药物研发)/AIDD(AI辅助药物研发)能够加速新药研发进展,去年,我们在这篇《 【2021版】全球44家顶尖药企AI辅助药物研发行动白皮书 》里已经解释过了,不再赘述。
CADD和AIDD的区别就是,一个重“人工”,一个重“智能”。
不必取舍,两者殊途同归。
国内企业在找CADD/AIDD人才方面现在是什么情况?
我们在国内9个主流招聘平台,相隔半年先后调查了两次,一共覆盖134家公司,职位关键词包括:AI、人工智能、CADD、计算化学等。
再说一遍:“别看他的眼睛,你看他的手”,行动永远胜过言语。
结论如下:
1、招聘CADD/AIDD相关职位的公司总量从78家增加到了106家,增幅36%;
2、半年内实际新增招聘公司数量,56家;
3、八成以上公司明确表示正在进行创新药研发,其中近四分之一应用了AI技术;
4、2014年以后成立的公司明确表示使用AI技术的比例大幅提升;
5、30家公司正在招聘CADD/AIDD团队负责人,占比28%,其中有9家在JD中明确提出要组建CADD/AIDD新团队;
6、最受欢迎CADD/AIDD应用前三名:Schrodinger、MOE和AutoDock。
第三plus:堆资源,或者找个新药研发平台?
为啥堆资源就快了?
1、充足的资源会给研发人员带来充足的想象力和试错空间,而不是束手束脚施展不开。
就像有人问一位Google芯片设计师:在Google做芯片,是一种什么体验?他说:就像小朋友走进了一家糖果店,开心疯了。(做芯片设计也是需要大量资源的
2、充足的资源能够提供更高的计算精度和准确性,提高结果的质量和可用性。2020年3月,哈佛大学医学院在《Nature》发表的论文《An open-source drug discovery platform enables ultra-large virtual screens》就明确推导了真阳性率与所筛选化合物数量的函数关系的概率模型,证明:化合物的最高打分随着规模增加而提高。
作者分别从10万、100万、1000万、1亿、10亿个化合物中进行了5次筛选,挑选了得分最高的前50个化合物进行对比,从图中可以很清楚地看到筛选的规模越大,得分越高(位置越靠上)。具体可以看这篇《15小时虚拟筛选10亿分子,《Nature》+HMS验证云端新药研发未来》
3、出结果快。
比如我们帮助一家大型药企使用AutoDock Vina对整个VS数据库(2800万个分子)做小分子对接,本地104核CPU需2.6至5年,在云上自动化构建并调度10万核大规模算力集群后只用15.23小时就完成了所有任务。
去哪里堆?
企业自己采购机器,搞机房,或者直接用云,都可以。
那么,直接找个新药研发平台呢?
让CADD/AIDD研发人员不用身兼数职,甚至要干运维的活;
更轻松、高效地获取超大规模资源,还可以自动化变大变小弹性伸缩;
Workflow自定义制作模板,降低团队整体学习和沟通成本;自动化的方式替代人工,提高研发整体效率和管理效率。
做创新药已经够难了,充满了不确定性。让其他事情变简单点?
先看几个成果:
更多你想要的答案,这里应该都有
新药研发平台37问
一、云平台支持哪些CADD/AIDD场景?
二、云平台支持哪些应用?支持自定义工作流吗?
三、对CADD/AIDD研发部门来说,有哪些好处?
四、对IT部门来说,有哪些好处?
一、云平台支持哪些CADD/AIDD场景?
1、如何支持AIDD场景?
在AIDD方面,我们支持AlphaFold、RoseTTAFold等常用AI框架所需资料和快速环境的搭建,并支持更多组件按需集成。
2、平台支持分子对接吗?支持基因测序吗?还支持哪些CADD场景?平台可支持CADD中典型场景分子动力学模拟、分子对接、虚拟筛选等,并支持单细胞测序、全基因测序场景。
3、蛋白与蛋白docking可以在平台中运行吗?DOCK发展到现在整合多步骤的HADDOCK、ClusPro、SwamDock、RosettaDock等等,该领域的算法不断地升级迭代。平台也能够很方便地集成相关软件,提供验证环境。
4、想要通过平台筛选一些特定结构的分子,是否可以优化化合物库?如果您能够提供确切信息,可以一同讨论优化。同时,我们也准备了很多开源的分子库供大家使用,现在已支持Zinc、Drugbank、Maybridge、Enamine等。
5、目前平台中是否有自建的化合物数据库?
CADD研究过程中,不论是靶点的发现和优化、还是先导化合物的发现和优化,开源的分子库是必不可少的基础数据。目前开源的分子库数据分散各地,下载缓慢,格式不统一,更新频率不等,导致无法统一使用和管理,数据资产作用发挥有限。所以我们构建了fastone自有的分子库,并做好了进一步的数据准备。
例如:
1、数据预处理,合并或格式转换;
2、数据后处理,去重或力场优化。
6、你们可以协助做小分子设计吗?
我们不直接提供具体的小分子设计,我们负责搭建IT和信息平台,协助您完成相关的研发工作。
7、基因数据量很大,平台有什么好的解决办法?
对于GB级别的增量数据,我们支持以混合云组网专线的方式优化上传线路。传输通道使用DM工具,支持全自动化数据上传,可充分利用带宽,帮助用户快速上传、下载海量数据。
对于PB级别的存量数据,建议通过离线方式快速传输。
8、最终结果能否在线可视化查看?
平台支持图片、表格、HTML等多种形式展现。
二、云平台支持哪些应用?支持自定义工作流吗?
9、云平台能覆盖到我常用的软件吗?我们支持常用的生物/化学计算类应用,包括:生物化学与分子生物学/化学工程/生物化学/应用化学/生物工程/药物化学/分析化学/物理化学/高分子化学与物理。
10、具体来说,支持哪些生物/化学计算类应用/工具?我们支持几乎所有的生物/化学计算类应用/工具,包括:AutoDockVina、Amber、FastQC、DeltaVina、GATK、Gromacs、Schrödinger、NetMHC、Rosetta、BCFtools等。
更多支持应用列表,欢迎文末扫码添加小F获取。
11、你们支持Alphafold吗?
我们可以快速提供Alphafold等常用环境,方便用户快速进行后续研究。
12、我们用的软件是自己编译的,你们平台支持吗?
支持。我们提供的集群环境镜像已包含常见应用工具运行所需的依赖库,用户也可以自行安装配置。
13、对于一些商业软件例如Schrödinger,你们提供License吗?
商业软件的License文件需要客户自行提供,fastone提供License Server进行统一管理。
14、分子对接流程能不能自定义?上云之后每次都要重新弄一遍吗?
很多时候,现成的应用往往无法满足用户的需求,需要根据自己的模型和研究目标,自定义设置一套独有的工作流程。
特别是新药研发所涉及的应用上,可以说几乎没有一模一样的工作流。 我们已经实现了多款应用(如Vina、Amber)的自定义工作流,可以根据用户的实际使用场景(包括入参文件、结果文件、流程使用方式、步骤以及相关说明等)实现自定义模板和脚本自动化。用户也可以提供脚本,由我们协助完成并行化改造。
15、你们是否提供固定的工作流模板?
提供。
用户在进行了一次或多次复杂的设定之后,能把这些设定保存成固定模板,不用重复手动去一步步重新设置。一次制作,反复使用,省时省力,还不用担心中间出错。而且,这套自定义的设置是可以跨应用存在的,不一定局限在一个应用范围内。自己重复用,共享给团队的其他人用,都可以。
16、你们是怎么帮助我们做工作流优化的?
我们有通用的框架。我们也有对应的CADD专家,可理解您的业务需求,快速设计出合理的相关流程。
17、你们的云平台如何与CADD应用相结合适配?
我们提供两种模式进行适配:任务模式和集群模式。
集群模式为用户提供了一个灵活的环境,用户可在集群模式下进行一系列的调整和优化,自由度非常高。
如果您习惯使用图形化界面操作,我们也提供图形桌面,您可通过Web浏览器启动集群,跳转到虚拟桌面,并可在该桌面直接操作应用进行相应设置以开启云端任务。当用户在集群模式下跑通了之后,可以选择将整个流程固化下来,方便更多研发人员使用。此时我们可以帮助用户将此套流程转换成固定的任务模式,让更多的人可以使用这个成熟的框架,从而加速后续的整体研发效率。
三、对AIDD/CADD研发部门来说,有哪些好处?
18、你们的平台容易操作吗?用起来会不会很麻烦?
我们为AIDD/CADD研发人员提供了一整套即开即用的新药研发环境,从登录桌面、打开应用、配置、提交任务、自动上云开机运行任务并自动关机、查看结果进行调试……用户所需要的操作与本地几乎完全一致,每一步只需在平台上使用鼠标简单点选即可完成。、
19、有些应用需要先跑完主任务再跑其他任务,上云可以智能化跑任务吗?
有些应用在运算时存在依从机制,每若干个任务中包含1个主任务,只有当主任务运行结束后,其他任务才能开始并行运算。
由于任务有先后,所以需要先跑主任务,在每个主任务完成之后自动调度资源并行运算其他任务。
而不同任务完成时间可能不同,对资源的需求量可能时高时低有波动,最终结束关机时间也不同。
我们使用Slurm调度器按顺序调度任务排队,Auto-Scale功能可自动监控任务和资源需求,动态按需地开启与关闭所需资源。详细的自动化过程可参考27问。
20、做分子对接,动不动就是几百万上千万个分子,太贵了,有节约成本的方案吗?
分子对接规模如果巨大,有什么好的解决办法能加快这个过程?怎么做到的?分子对接的一大特征是任务数量庞大而单个任务计算时间短,单个分子对接的时间通常在几分钟以内(与参数设置有关)。
这一特征天然匹配云端的SPOT实例。
当便宜且随时可能被抢占中断的SPOT实例遇到迷你却海量的分子对接任务,简直就是天造地设的一对。
1、常规分子对接任务几分钟即可算完,特别适合SPOT这种分分钟可能被抢走的状态;
2、fastone平台具备自动重试功能,一个任务被中断可以自动重新提交,任务之间互相不影响,重新提交单个任务影响很小。详见《生信云实证Vol.3:提速2920倍!用AutoDock Vina对接2800万个分子》
21、任务量比较大,想提前预估一下费用再做决策,有没有什么好办法?
我们平台预设了智能预测功能,以MOE为例。
用户在fastone平台的图形化操作界面运算MOE任务,完成以下步骤:
1、用户上传数据文件(平台自动解析文件,判断其中包含的分子数量)
2、用户输入期望的运算时间(平台推荐用户适配机型或用户自行选择机型)
3、系统得出预测成本
项目负责人能够非常方便地使用该功能预估项目费用,完成项目规划和申请。
22、我要跑TPU,你们支持吗?
支持。
用户可以通过我们平台获取到TPU资源。
23、有时会遇到CADD模拟出的结果与实际结果有一定出入,这是为什么?
CADD本身是模拟的结果,通过不断的迭代,力场的优化,会不断接近实际情况。CADD和实际的实验数据相结合,反复设计和迭代,可以达到很好的效果。
24、有些任务需要使用大量的GPU资源,你们有吗?
当单个云厂商的GPU资源难以满足需求时,我们会根据用户任务需要和特性,跨多家公有云厂商,智能自动化调度云端GPU异构资源,保证用户对GPU的需求得到满足。
25、GPU资源很贵,有没有节约成本的方案?
GPU资源在不同云厂商之间有着显著的差异,而且往往资源多的售价高,便宜的资源少,同时兼顾成本和效率是必须要考虑的问题。以各大公有云厂商在北京地区的GPU实例(V100)按需价格为例,最高价格超过最低价2倍。
我们平台可综合考量用户对完成任务所需时间和成本的具体要求,在多个云厂商的资源之间选择最适配的组合方案,为用户跨地区、跨云厂商调度所需资源。
26、用Amber跑任务,用GPU跑非常快,但是有时候会跑失败,用CPU虽然稳定但是慢,你们怎么解决?
这是Amber18版本的固有问题,在使用GPU时计算时有10-15%概率失败,需要及时调度CPU资源重新计算。我们平台支持优先使用GPU计算,当任务失败时,自动调用CPU重新计算。
该问题已在Amber20中修复。
四、对IT部门来说,有哪些好处?
27、现在公司里才几台机器,天天维护头就很大了,云上这么多机器还不得把自己搞秃了?
云上的运行环境都是自动化配置的,不需要人工干预,用户还可以通过平台进行统一管理和监控,方便易操作。
举个例子,我们的Auto-Scale功能可以自动监控用户提交的任务数量和资源的需求,动态按需地开启和关闭所需算力资源,在不够的时候,还能根据不同的用户策略,自动化调度本区域及其他区域的目标类型或相似类型实例资源。所有操作都是自动化完成,无需用户干预。
下图就是开启Auto-Scale功能后,用户某项目一周之内所调用云端计算资源的动态情况。
其中橙色曲线为OD实例的使用状况,红色曲线为SPOT的使用状况。
Auto-Scale功能可以根据任务运算情况动态开启云端资源,并在波峰过去后自动关闭,让资源的使用随着用户的需求自动扩张及缩小,最大程度匹配任务需求。
28、你们是什么存储策略?费用呢?冷存储和热存储的费用是不一样的,我们会根据用户的情况提供个性化的解决方案。
29、数据备份的频率如何?最高可以达到多少?现有策略怎样?默认每周六进行数据备份,也可以根据客户需求按天或按小时备份。
30、使用平台的工作人员比较多,能否对每个人设置使用资源的上限?
fastone平台的权限和角色管理功能,支持管理员角色对每一个用户进行相关权限设定,包括预算使用上限和CPU核数使用上限,从而在全局角度管控项目的资源消耗。该功能与智能预测配合使用,能够从多个层面对预算和资源进行全方位规划。
31、公司里还有些机器能用,你们支持混合云模式吗?
支持。
可以将本地机器做成集群,也可以基于本地机器搭建混合云平台。我们支持本地资源不足的时候,自动溢出到云上。
32、你们怎么实现混合云?
云资源和本地之间通过安全的数据通道连接,所有资源在fastone平台统一管理,有统一视图,并按需智能调度,不改变用户的使用习惯。
33、公司里已经有机器了,再增加一套云环境,IT管理上会不会变麻烦?通过我们可以在不增加负担的情况下对接多云,减少IT管理压力。我们的自动化管理平台很容易上手,对提升研发效率和资源利用率都有很大帮助。
34、我们公司有海外研发部门,用你们平台方便吗?
我们的平台支持全球部署,我们会全球的优化组网,统一用户管理,数据管理,优化的远程接入方式,保持一致的用户体验。
35、云上云下的安全如何保障?
安全是一个立体的概念,包括系统安全、应用安全、流程安全、数据安全等很多方面。
云的基础架构和传统IT架构在安全方面并没有本质上的区别,依然是利用计算节点和存储资源。很多人觉得这两者之间存在差异,我们认为这取决于个人的认知。本地的安全措施在云上都可以实现,同时云厂商本身还提供更强大的安全保障。
36、数据安全如何实现?
数据全部通过安全协议传输,并支持RBAC的数据访问认证鉴权。同时,我们还支持数据加密存储,算法可自定义。
- END -
我们有个新药研发云平台
集成多种生命科学领域应用,大量任务多节点并行
应对短时间爆发性需求,连网即用
跑任务快,原来几个月甚至几年,现在只需几小时
快速上手,拖拉点选可视化界面,无需代码
支持高级用户直接在云端创建集群
扫码免费试用,送200元体验金,入股不亏~
更多电子书欢迎扫码关注小F(ID:imfastone)获取
你也许想了解具体的落地场景:
这样跑COMSOL,是不是就可以发Nature了
Auto-Scale这支仙女棒如何大幅提升Virtuoso仿真效率?
1分钟告诉你用MOE模拟200000个分子要花多少钱
LS-DYNA求解效率深度测评 │ 六种规模,本地VS云端5种不同硬件配置
揭秘20000个VCS任务背后的“搬桌子”系列故事
155个GPU!多云场景下的Amber自由能计算
怎么把需要45天的突发性Fluent仿真计算缩短到4天之内?
5000核大规模OPC上云,效率提升53倍
提速2920倍!用AutoDock Vina对接2800万个分子
从4天到1.75小时,如何让Bladed仿真效率提升55倍?
从30天到17小时,如何让HSPICE仿真效率提升42倍?
关于为应用定义的云平台:
解读Hyperion年度报告:脱离场景谈用量就是耍流氓
这一届科研计算人赶DDL红宝书:学生篇
一次搞懂速石科技三大产品:FCC、FCC-E、FCP
AI太笨了……暂时
【2021版】全球44家顶尖药企AI辅助药物研发行动白皮书
国内超算发展近40年,终于遇到了一个像样的对手
帮助CXO解惑上云成本的迷思,看这篇就够了
花费4小时5500美元,速石科技跻身全球超算TOP500