自动猜想与定理发现

张健; 谭思成

doi:10.1007/s11390-026-6040-0

摘要:

文章摘要图/表：

图1：自动猜想方法分类框架图。本文将自动猜想方法分为两大范式：符号方法和数据驱动方法。符号方法进一步分为自顶向下的引理发现和自底向上的理论探索；数据驱动方法分为科学发现系统、统计类比学习方法和基于大语言模型的神经方法。

研究背景 自动推理是人工智能的重要分支，自动定理证明是其核心问题之一。然而通常依赖于人类专家提出猜想作为定理证明问题，如何得到更多的高价值猜想作为证明目标，限制了定理证明和理论研究的进一步发展。自动猜想与定理发现成为推动智能数学推理的重要内容与关键挑战，无论是对于科学理论研究和自动定理证明都有巨大的应用价值。目前针对定理证明的工作非常丰富，但是关于自动猜想和定理发现的工作未得到充分的重视。

目的作为一篇综述性论文，本文旨在系统总结自动猜想与定理发现的研究方法和研究现状，为相关领域研究者提供全面的技术参考与研究方向指引。

方法本文通过系统性的针对关键词检索和引文追溯，筛选了与主题相关的100余篇论文，针对其中的方法的原理和应用进行总结和分类，对目前较为分散的文献和工作进行了总结，提出了以下系统的分类法和研究内容。（1）符号方法：自上而下引理发现：基于待证明定理或证明状态生成辅助引理，目标驱动的解决挑战性的定理证明问题。自底向上理论探索：基于包含公理，定义和简单定理的理论背景，不断探索新的概念和关系，生成有价值的猜想并获得更丰富的理论背景。（2）数据驱动方法：数据驱动的科学发现方法：利用实验数据驱动的猜想方法在具体科学发现领域的应用。基于统计类比学习的方法：利用传统机器学习技术从形式化语料库中学习猜想的特征，提出相似的猜想。基于大语言模型的神经方法：利用深度学习框架和大语言模型的文本推理能力和形式化语料知识生成猜想。用于合成数据的定理生成: 为进一步的数据驱动训练提供合成数据。

结果本文系统的梳理了自动猜想和定理发现的分类法，提出了符号方法与数据驱动方法的两大分类范式，同时根据方法原理对其进行了进一步的划分，为后续的研究为该领域构建了一个系统的理论框架参考和文献索引。同时总结了合成数据相关工作，现有的评估方法，局限与挑战，并提出未来研究方向。本文通过现有工作，注意到目前的自动猜想工作中，符号方法在符号化的引理发现和结构化的理论探索中已经有一定成果，但面临搜索空间爆炸等问题。而神经方法在生成多样且相关猜想方面表现出潜力，但缺少可控性和系统性探索能力。神经符号融合方法能结合符号方法和神经方法的优势，在未来的自动猜想工作中值得关注。同时，提高定理生成质量，针对猜想有趣性评估缺乏统一且系统的标准和方法仍然是需要注意的问题。

结论本综述系统梳理了定理证明与科学发现中的自动猜想和定理发现方法，将现有研究划分为符号方法（包括自上而下引理发现与自底向上理论探索）和数据驱动方法（涵盖基于统计类比学习与大语言模型的神经方法），本文还针对应对数据稀缺的合成数据定理生成技术，评估猜想的有趣性的多维度指标进行讨论。猜想的有趣性指标和评估方法对于区分创新发现与平凡结果具有关键意义。最后，本文总结了当前面临的挑战，并对自动猜想领域未来的发展路径进行了展望。

Abstract: Automated conjecturing and theorem finding represents a fundamental challenge in artificial intelligence, involving the systematic generation of mathematical conjectures and theorems from given axioms and definitions. This survey provides an overview of automated conjecturing and theorem finding methods. We categorize existing approaches into symbolic methods and data-driven methods. Symbolic methods, which include top-down lemma discovery and bottom-up theory exploration, leverage deductive reasoning and symbolic enumeration. Data-driven methods comprise statistical analogy learning and recent neural methods based on large language models, which learn patterns from large formal corpora, and also include efforts in scientific discovery from experimental data and theorem generation for synthetic data. We also discuss strategies and evaluation methods of interestingness. Finally, we identify current challenges and suggest some future research directions. This comprehensive analysis aims to guide researchers in understanding the current state of automated conjecturing and identifying opportunities for advancing this critical area of mechanized mathematics and automated reasoning.

自动猜想与定理发现

Automated Conjecturing and Theorem Finding: A Survey