We use cookies to improve your experience with our site.

第一性原理计算软件LS3DF进行1 000万个硅原子模拟

10-Million Atoms Simulation of First-Principle Package LS3DF

  • 摘要:
    研究背景 随着摩尔定律所描述的计算能力的指数级增长,材料科学的基础进步不断推动着半导体行业的发展。至今,半导体器件如场效应晶体管(FETs)已成为集成电路(IC)和整个信息产业的基石。随着FETs尺寸缩小至10纳米以下,量子力学现象(如电子结构、能带隙开启、能带对齐和电荷转移)在建模下一代半导体器件中起到了更为关键的作用。为了模拟量子效应,产生了多个求解量子力学基本方程的计算方法。在各种计算方法中,线性缩放的三维片段方法(LS3DF)在处理大规模模拟问题时表现出了卓越的可扩展性。
    目的 本文的研究目的是解决半导体器件的模拟问题,所以需要将线性标度三维分块算法(LS3DF)在异构超级计算机上高度可扩展和高效地实现。针对这种特殊的算法和特殊的计算体系,我们需要同时基于算法和系统对其进行优化。
    方法 在算法优化方面,我们对原始的全波段共轭梯度算法进行了细致的改进,以实现更快的收敛速度。此外,为了提高整体效率,我们还采用了混合精度计算。在系统级优化方面,我们用粗粒度并行方法取代了原始的两层并行结构。为了充分利用异构计算机所提供的计算能力,我们还提出了一系列优化策略,包括多流处理、核函数融合以及冗余计算的移除。
    结果 经过我们的优化措施,我们将计算总时间缩短了3.1倍。并且我们的LS3DF实现方案能够扩展到1000万硅原子的体系上,并表现出良好的扩展性,取得了34.8 PFLOPS的峰值性能,占峰值性能的21.2%。所有我们的这些改进措施均可适用于下一代超级计算机,为更大规模的模拟提供支持。
    结论 我们的结果证明了在国产超级计算机上模拟像FET这样的电子器件成为可能。尽管我们的优化是在基于SIMT加速卡的平台上实施的,但本文展示的优化策略也可应用于其他异构架构,如神威和NIVIDA GPU。此外,当前LS3DF的实现局限于解决一般问题。在未来的计划中,负载平衡问题可能是优化的一个方向,我们将为更复杂的问题选择动态调度方法。通过这些优化,我们希望能够在计算效率和应用价值上进一步提升LS3DF方法,并为未来的研究和实际应用奠定基础。

     

    Abstract: The growing demand for semiconductor devices simulation poses a big challenge for large-scale electronic structure calculations. Among various methods, the linearly scaling three-dimensional fragment (LS3DF) method exhibits excellent scalability in large-scale simulations. Based on algorithmic and system-level optimizations, we propose a highly scalable and highly efficient implementation of LS3DF on a domestic heterogeneous supercomputer equipped with accelerators. In terms of algorithmic optimizations, the original all-band conjugate gradient algorithm is refined to achieve faster convergence, and mixed precision computing is adopted to increase overall efficiency. In terms of system-level optimizations, the original two-layer parallel structure is replaced by a coarse-grained parallel method. Optimization strategies such as multi-stream, kernel fusion, and redundant computation removal are proposed to increase further utilization of the computational power provided by the heterogeneous machines. As a result, our optimized LS3DF can scale to a 10-million silicon atoms system, attaining a peak performance of 34.8 PFLOPS (21.2% of the peak). All the improvements can be adapted to the next-generation supercomputers for larger simulations.

     

/

返回文章
返回