生信云实证Vol.12：王者带飞LeDock！开箱即用&一键定位分子库+全流程自动化，3.5小时完成20万分子对接

LeDock是苏黎世大学Zhao HongTao在博士期间开发的一款分子对接软件，专为快速准确地将小分子灵活对接到蛋白质而设计。

LeDock优于大部分商业软件，在Astex多样性集合上实现了大于90％的构象预测准确度，对接时间最快仅需三秒。

LeDock同时支持Windows、Linux和MacOS三大操作系统。

Linux版支持大规模虚拟筛选，需要通过代码操作才能实现目标。

Windows版的图形界面极大简化了药物化学家常见多重复杂的对接过程，但每次任务只能对接一个分子，效率极低，只适用于少量对接场景。

如果考虑到不少用户还有分子库相关的需求，无论哪种版本，对用户来说，都有点难搞。

今天我们就通过一个LeDock实证来聊聊，怎么帮助大家愉快地（不写代码）提高大规模分子对接效率（少点手动），甚至还能解决一些别的问题（一些爽点），扩大实验的空间和范围，放飞研发人员的想象力。

科研这件事，还是需要有点儿想象空间的。

用户需求

某药企药物化合部想使用LeDock进行20万分子对接任务，但本地只有两台48核的工作站。

如果按Windows版的一对一串行对接模式，假设按1分钟一个算吧，不吃不喝不睡不关机，也要对接138天。如果再加上中间出错修改、参数配置、分子库处理，无数次重复手动操作步骤，就，没法算了。。。

如果用Linux版，这一时长就取决于两个点：本地拥有的资源数量和IT能力的高低。

所以，他们有以下几个问题：

1. 基于现实条件，怎么快速达成用LeDock跑20万分子对接任务这个目标？

2. 能不能使用更友好的图形界面来进行操作？甚至把一些工作流程固定，下次直接就能用，还可以分享给同事？

3. 能不能帮忙准备分子库？

实证目标

1、能否让用户拥有Windows版和Linux版的双重优点，不用写代码，也能实现大规模虚拟筛选？

2、LeDock任务能否在fastone云平台大规模运行且效率显著提升？

3、用户很多常见复杂的手动操作，能不能自动化进行？

4、是否能为用户提供开箱即用的分子库？

实证参数

产品类型：

速石FCC-E产品

操作系统及应用：

LeDock Linux版

适用场景：

研究配体和受体（药物分子）相互作用的模拟方法

云端硬件配置：本任务属于CPU密集型任务，对内存的需求不高，因此我们选择了高性价比的云端计算优化型实例（CPU/内存=1:2）。

用户完整工作流程图

用户打开应用，提交蛋白质pdb文件，选择分子库文件和资源后，由fastone平台进行分子对接并打分，用户可直接查看结果，提取目标分子，进行下一步化合物研究。

实证过程

一、开箱即用，一键定位&加密的分子库

1. 开箱即用的分子库

对接开始前，用户除了蛋白质pdb文件，还需要准备分子库文件。分子库大多来自海外，其本身的大小和数据质量，直接影响着后续虚拟筛选阶段的命中率。对用户来说，需要将分子库从外网下载到本地，有些数据量动辄几十T，如果还涉及分子结构从2D转换到3D等复杂处理，运算量相当大，要么耗时间，要么耗钱。

我们已经准备好开箱即用的分子库供用户使用，包括：Zinc、DrugBank、Maybridge、Enamine等。

因为LeDock仅支持mol2格式，fastone平台会在对接前，自动将sdf格式转换成多分子mol2格式文件，同时完成拆分，使单个分子对应一个mol2文件。否则，直接把多分子mol2文件放进去对接，只会读取第一个分子。

2. 一键定位&加密的分子库索引系统

用户筛选完分子后，还要在20万个分子的原始库里迅速定位并提取出来。这难度不亚于只知道书名但要在图书馆里找书，茫茫书海，大海捞针。

我们的分子库索引系统就派上了大用场。

这套索引和图书馆索引系统类似，将原始分子名字通过加密转换成唯一ID， ID相当于GPS定位，表示该分子在原始库里的具体位置。

比如，某分子的唯一ID为“A-G22-18578”，即表示他位于分子库A区G22柜的第18578个，可以轻松将分子提取出来。

这道索引系统相当于为原始分子库做了一道数据加密和定位系统，除了用户没人知道最终提取出来的是哪些分子，既保护了数据的安全性，又让用户能迅速定位到某个分子。

二、云端大规模业务验证

200000个分子上云

用户使用fastone平台，在云端调度768核计算资源，成功对接200000个分子，从中筛选出了300个分子，进行下一步的化合物研究。此次任务对接共耗时3.5小时，平均对接一个分子只需45S。

这里要说明一下，这个45S不是纯分子对接时间，是包括了用户的整个工作流程所有操作在内的。而且，不同分子之间的对接时长是不一样的，时间会被对接得慢的分子拉长，无法直接横向对比。比如用户在进行3万分子对接的时候，平均时长却达到了90S。

实证过程：

1. 云端调度48核计算优化型实例运算一组LeDock任务（对接约200000个分子），耗时3262.6分钟；

2. 云端调度96核计算优化型实例运算一组LeDock任务（对接约200000个分子），耗时1630.8分钟；

3. 云端调度192核计算优化型实例运算一组LeDock任务（对接约200000个分子），耗时815.1分钟；

4. 云端调度384核计算优化型实例运算一组LeDock任务（对接约200000个分子），耗时407.2分钟；

5. 云端调度768核计算优化型实例运算一组LeDock任务（对接约200000个分子），耗时203.3分钟。

从图上可以看出，LeDock任务在云端的线性扩展性表现良好，当云端资源增加到768核之后，运算时间缩短到了3个多小时，极大地提升了运行效率。

即使当分子数量增加到2800万这个量级，我们调用10万核CPU资源，在AutoDock Vina这个应用上也同样表现优秀，可参考《提速2920倍！用AutoDock Vina对接2800万个分子》

三、自动，自动，全是自动

1. 单机模式VS并行化

我们把跑分子对接这个任务分成三种不同的IT难度等级：

没有难度：单机单CPU核，单任务。

中等难度：单机多CPU核，多任务。

王者难度：多机多CPU核，多任务。

想要对三种难度等级深入了解，看这里《揭秘20000个VCS任务背后的“搬桌子”系列故事》

如果按照“没有难度”这个等级，200000个分子串行排队，一个任务跑1分钟，我们开头已经算过了，基本没什么现实可操作性。

我们直接将你带飞到"王者难度"，在n台n核的机器上跑，效率提升n*n倍，理论上n可以无限大。这个数字用户可以自行设定。

2. 一次设定，跑完20万个任务

怎么把一些工作流程固定，不用一次次重新设定，下次直接一键使用。甚至还可以分享给其他同事，提高大家的工作效率？

到了速石传统艺能项目—自定义模板出马的时候了。

我们将用户跑LeDock的工作流程固定成一套模板：

step 1：用户提交蛋白质pdb文件；

step 2：用户选择sdf格式分子库文件；

step 3：fastone平台自动将sdf格式转换为mol2格式分子库文件；

step 4：fastone平台自动进行多分子拆分；

step 5：fastone平台将蛋白质、参数文件与mol2格式分子进行对接；

step 6：fastone平台扫描所有已完成对接的分子，进行打分；

step 7：用户查看打分结果；

step 8：用户筛选并从分子库里提取出分子，进行下一步化合物研究。

用户在这个模板的基础上，自行调整各项参数，就能按这个流程一路跑下去了。

一次设定，反复使用，省时省力，还不用担心以后不小心出错。

这套自定义模板不但能分享，还可以跨应用设定，可以展开看看《1分钟告诉你用MOE模拟200000个分子要花多少钱》

3. 自动检查文件完整性

这个自动检查包括两个部分：

第一，用户上传配置文件的同时，速石平台内置的检查程序，会自动检查文件完整性。

每个步骤需要用到的文件量很可能不一致，如果用户运行到第五六步了，才发现某个上传文件有问题，应该会非常崩溃。

第二，对接完成后，我们会对完成打分的文件数和初始文件库做日志校验，看数据是否有丢失。平常情况下，用户可能很难察觉。

在这种大规模任务下，自动检查程序能大大降低用户任务返工率，以及协助用户判断运行过程中是否有问题。有些问题靠人力可能无力检查。

4. 两种场景下的重复提交任务功能和自动监控告警

放着机器通宵跑任务时总会幻想：第二天一早，任务已经跑完了，完美。

现实是：任务才跑了10%。

任务出错，进度条卡住，可能会有两种情形：

第一种：每个任务之间独立，彼此没有关联。

一般任务数量越多，失败的任务数量大概率也会变多，比如对接1万个分子，有可能会有50个失败任务；20万个分子，可能有1000个失败任务。

第二种：每个任务间有明确的先后处理顺序，必须从A任务按序跑到Z。

假如到F任务就失败了，整个任务就此停滞，凉凉。

自动检查任务状态并对失败任务及时重复提交的功能，就是这种场景的克星，尤其是第二种，不然等待着你的，大概就是通宵，同时睁大你的双眼了。我们的任务监控告警功能，还会时刻监控任务状态，通过IM及时通知用户，任务出现异常或已经完成。

我们还见到过一种特殊情况，Amber用GPU跑任务速度快，CPU较慢，但使用GPU计算时存在10%-15%的失败概率。一旦任务失败，需要调度CPU重新计算。

能否及时且自动地处理失败任务，将极大影响运算周期。如果想了解我们怎么应对的，请点击《155个GPU！多云场景下的Amber自由能计算》

实证小结

1、LeDock 大规模云端筛选毫无压力，运行效率呈线性显著提升；

2、fastone平台能提供开箱即用，且能一键定位&加密的分子库；

3、fastone 能为用户定制自定义模板，一次设定，反复使用，界面友好；

4、fastone平台提供的自动化检查程序和重复提交任务功能，极大降低用户的工作量；

5、用户在20万个分子对接任务中，筛选出了300个分子，进行下一步的化合物研究工作。

本次生信行业云实证系列Vol.12就到这里。

关于fastone云平台在其他应用上的表现，可以点击以下应用名称查看：

HSPICE │ Bladed │ Vina │ OPC │ Fluent │ Amber │ VCS │ MOE │ LS-DYNA │ Virtuoso│ COMSOL