机器学习原子间势时代的高性能计算：训练与推理优化策略的综述

胡思宇; 姚二林; 谭光明; 贾伟乐

doi:10.1007/s11390-026-6331-5

机器学习原子间势时代的高性能计算：训练与推理优化策略的综述

High-Performance Computing in the Age of Machine Learning Interatomic Potentials: A Review of Optimization Strategies for Training and Inference

摘要

摘要:
研究背景 机器学习原子间势（Machine learning interatomic potential, MLIP）采用数据驱动的方法对原子体系势能面（Potential Energy Surface, PES）建模，在显著降低计算成本的同时可逼近第一性原理计算精度，为大规模长时间尺度的原子尺度模拟提供高精度高效率的计算工具。MLIPs从面向特定化学体系的专用模型，发展到覆盖更广化学空间的预训练模型，其训练数据量、模型参数量、训练流程和推理方式也发生了改变。随着近年来预训练MLIPs的训练数据量、模型参数量的增加（图一为在Matbench Discovery Leaderboard上模型参数量和F1得分的情况），专用MLIPs和预训练MLIPs在训练和推理阶段采用的高性能计算（High Performance Computing, HPC）相关技术也各有侧重。Fig.1. Matbench Discovery 榜单上 MLIP 提交量与精度趋势演变。橙色：基于 MPtrj（材料项目轨迹数据集）预训练的模型权重（参数量 413k–18.7M）；蓝色：基于 OMat24+MPtrj+sAlex 数据集预训练的模型权重（参数量 3.45M–730M）；黑色：基于自定义数据集训练的模型。权重黑线：榜单模型累计数量随发表时间的变化。绿色线条和点：F1 分数随发表时间的变化。以上统计数据均来源于 Matbench Discovery 官网。高性能计算相关技术不仅是MLIPs训练和推理过程中的辅助工具，是提升MLIPs训练效率、扩展性及实用性的关键要素。现有研究对专用型MLIPs和预训练MLIPs所采用的高性能计算相关技术仍然较为分散，尚缺乏系统性的归纳与总结，缺少更深入的解释，关于为什么某些优化策略更常用于某一类MLIPs。本综述从MLIPs的特性出发，剖析MLIPs的性能瓶颈及应对这一瓶颈时常采用的优化方法，使人们对MLIPs及其优化方法具有更充分的认识。
目的我们的研究旨在通过系统梳理专用MLIPs与预训练MLIPs在训练和推理阶段的优化技术，帮助研究人员及从业者理解并选择适合的高性能计算相关技术，以促进MLIP的训练与部署。
方法我们从训练数据规模与分布、模型结构与参数规模、分子动力学推理负载等多个维度审视专用MLIPs和预训练MLIPs，基于此，我们分析了与这些特性相适配的高性能计算优化技术，并对近年来用于专用MLIPs和预训练MLIPs上的高性能计算优化技术进行了系统梳理，如图二所示。Fig.2. 专用与预训练机器学习原子间势（MLIP）概述及其典型高性能计算（HPC）优化重点。该映射仅反映近期研究中的代表性趋势，而非严格限定要求。
结果总体来说，专用MLIPs常用的HPC优化技术包括算子融合、曲率感知优化器算法、主动学习工作流、空间域划分的推理等。预训练MLIPs常用的HPC优化技术包括负载均衡、两阶段训练、训练后处理技术如微调、剪枝、蒸馏和基于图划分的推理等。诸如算子融合、等变算子库等优化技术既可适用于专用MLIPs又可适用于预训练MLIPs。原则上，专用MLIPs和预训练MLIPs训推过程中的优化技术并不互斥，只是专用MLIPs和预训练MLIPs在训练数据规模与分布、模型结构与模型参数规模、分子动力学推理负载的特性上存在差异，使得专用MLIPs和预训练MLIPs训练和推理时主要性能瓶颈的来源不同，进而导致专用MLIPs和预训练MLIPs呈现出各自更常使用的高性能计算优化技术。
结论 HPC正在成为推动AI for Science领域持续演进的关键力量。无论是面向特定体系、追求极致精度的专用MLIPs，还是面向更大化学空间、强调泛化能力的预训练MLIPs，其训练和推理都离不开高性能计算的深度支撑。如果说MLIPs让材料模拟第一次真正看到了“精度与效率兼得”的可能，那么高性能计算（HPC）就是把这种可能推向现实模拟的核心引擎。当前MLIPs的高性能优化成果主要仍集中在GPU平台，在TPU、NPU 等新型 AI 芯片上的应用尚不普遍。原因可能为：一方面，相关软件生态和专用算子仍不成熟；另一方面，MLIPs 对数值精度要求较高，最终高精度收敛通常仍离不开 FP32乃至FP64；更重要的是，MLIPs相关任务往往具有稀疏交互、访存受限的特点，并不天然适配于大规模稠密矩阵运算见长的硬件架构。在不久的将来，MLIPs不会仅成在一小部分计算材料相关的科研人员的工具，它们有望融入大语言模型（LLM）生态，演化为真正的“科学智能体”。他们能更容易更友好的被更广大的受众（做实验的科研人员、初高中学习化学的老师和同学们等）调用。

Abstract: As one typical AI-for-Science application, machine learning interatomic potentials (MLIPs) have revolutionized the representation of potential energy surfaces. MLIPs can be categorized into specialized MLIPs, which prioritize high accuracy for specific systems, and pretrained MLIPs, which emphasize generalizability across chemical spaces. Specialized MLIPs and pretrained MLIPs differ in the dataset to be trained, model capability (parameters), the training workflow, and the workload in molecular dynamics. We review different high-performance computing (HPC) optimization techniques for training and inference that specialized MLIPs and pretrained MLIPs tend to prefer. For example, from the perspective of the training dataset, we investigate the load balance strategies, which are critical for pretrained MLIPs to enhance scalability. From the perspective of model parameters, we indicate that specialized MLIPs can benefit from curvature-aware optimization algorithms given their moderate model size. We remark that advances in HPC are not merely engineering improvements but play a key role in faster iteration of MLIPs, broader applicability, and sustained progress in MLIP development.

HTML全文

参考文献()

施引文献

资源附件()