通向大分子的探索空间:一种高效的分子生成方法
Towards Exploring Large Molecular Space: An Efficient Chemical Genetic Algorithm
-
摘要: 1、研究背景(context):生成具有特定属性的分子在制药和化学方面是非常重要的任务。例如,在材料化学方面如果能快速有效地筛选特定的分子,将对新材料的发现和下游产业产生巨大的正面影响。数据挖掘和人工智能在其他研究领域取得了令人瞩目的成就,例如人脸识别、自然语言处理等。因此近来利用深度学习和遗传算法进行分子生成的研究受到学者的关注。然而现有的方法在效率和效果上都有待提升。同时,之前工作中的评价指标存在一定瑕疵,此瑕疵可能会影响此领域所有工作的效果评估。本文在吸取前人工作优点的基础上设计了一套符合化学先验知识的遗传算法,较为明显地提升了实验效率和效果。也认真讨论了前人工作的评价标准的不足。
2、目的(Objective):本文的目的是设计一个高效的分子生成方法。这种方法能够在单位时间内探索较大的分子空间,能同时进行细粒度和大范围的探索,从而从复杂的分子空间中筛选出符合特定要求的分子。本文同时对之前工作的评价标准进行了详细探究,指出了其中的不足。本文呼吁之后的工作避免此不足,以对工作进行正确地评估。
3、方法(Method):本文提出了Chemical genetic Algorithm for Large Molecular space (CALM) 算法。本文详细细致地研究了分子结构和属性之间的关系。本文提出了一种新式的分子编码方式。基于此编码方式,本文设计了适合于复杂分子空间的交叉和变异操作。同时,本文将上述过程融合成一个框架,对分子空间进行了高效地探索。
4、结果(Result & Findings):本文对所提出的算法进行了较为详细的实验。在无限制条件下的分子大范围探索之前的评价标准存在一些问题,已在论文中详细论述。本文对此实验进行了z测试,CALM算法的统计显著性|z|大于等于14.95。在有限制条件下的分子生成实验中,CALM算法在单位时间内能够筛选更多的分子,同时统计指标上也表现地更为出色。对所得结果进行z测试,CALM算法在此实验上的统计显著性|z|大于等于4.17。以上两次z测试都表明CALM算法有超过99%的可能性具有显著性。本文同时也对CALM其他进行了其他定性实验,其具有优良的分子探索能力和效率。
5、结论(Conclusions):本文介绍了一种高效的基于遗传算法框架的分子生成算法——CALM。本文将CALM算法和其他算法在多个方面进行了详细比较,CALM在效率和指标的表现上有着一定优势。同时,本算法也能进行细粒度和大范围的分子空间探索。同时,本文对于之前实验结果中存在的瑕疵进行了详细讨论,对于本文中提到的评价标准上的瑕疵,希望后来的工作能够仔细注意。本文的研究范围有一定的局限,本文实验中探索的分子属性较为简单。我们将在之后的工作中对更为复杂、更贴近实际应用的场景进行研究。Abstract: Generating molecules with desired properties is an important task in chemistry and pharmacy. An efficient method may have a positive impact on finding drugs to treat diseases like COVID-19. Data mining and artificial intelligence may be good ways to find an efficient method. Recently, both the generative models based on deep learning and the work based on genetic algorithms have made some progress in generating molecules and optimizing the molecule’s properties. However, existing methods have defects in the experimental evaluation standards. These methods also need to be improved in efficiency and performance. To solve these problems, we propose a method named the Chemical Genetic Algorithm for Large Molecular Space (CALM). Specifically, CALM employs a scalable and efficient molecular representation called molecular matrix. And we design corresponding crossover, mutation, and mask operators inspired by domain knowledge and previous studies. We apply our genetic algorithm to several tasks related to molecular property optimization and constraint molecular optimization. The results of these tasks show that our approach outperforms the other state-of-the-art deep learning and genetic algorithm methods, where the z tests performed on the results of several experiments show that our method is more than 99% likely to be significant. At the same time, based on the experimental results, we point out the defects in the experimental evaluation standard which affects the fair evaluation of all previous work. Avoiding these defects helps to objectively evaluate the performance of all work.