赋能LLM逻辑推理:挑战、方法与前沿综述

图片

当前,大型语言模型(LLM)的研究焦点正经历一场深刻的转变——从过去主要依赖“扩展定律”(Scaling Law)进行大规模预训练,逐渐转向更加关注模型在训练后所展现的推理能力。鉴于符号逻辑推理在确保结论的严谨性与普适性方面具有不可替代的价值,提升大模型的逻辑推理能力,已经成为攻克其“幻觉”频现这一顽疾的关键策略。

为了深入推动大语言模型在逻辑推理领域的研究进展,一支由北京大学、清华大学、阿姆斯特丹大学(UvA)、卡内基梅隆大学(CMU)以及穆罕默ド·本·扎耶德人工智能大学(MBZUAI)等五所顶尖学府的研究精英组成的团队,对该领域的前沿研究方法与评测基准进行了全面细致的梳理。他们联手发布了一份名为《Empowering LLMs with Logical Reasoning: A Comprehensive Survey》的调研综述。这份综述聚焦于两大核心科学议题——逻辑问答的准确性逻辑输出的一致性,系统地归纳了现有解决方案,并对未来的研究图景进行了展望。

值得一提的是,这篇综述论文已成功被国际人工智能联合会议 IJCAI 2025 的 Survey Track 收录。届时,作者团队还将在 IJCAI 2025 会议上,围绕同一主题举办一场 Tutorial 演讲,旨在全方位剖析该研究领域所面临的挑战、已有的方法论以及潜在的发展机遇。

图片

核心洞察:大模型逻辑推理的挑战与突破口

尽管大型语言模型(LLMs)在众多自然语言处理任务上取得了令人瞩目的成就,但近期的研究揭示,它们在逻辑推理方面的能力仍存在不容忽视的短板。本文将大模型在逻辑推理方面所遭遇的困境,主要归结为以下两个相互关联的层面:

  • 逻辑问答的挑战:当需要在给定的前提条件和约束下进行演绎、归纳或溯因等复杂推理时,LLMs 常常难以生成准确无误的答案

    • 例如,假设前提是:“金属都能导电;绝缘体都不能导电;如果一个物体是铁制的,那么它就是金属;这枚钉子是铁制的。”
    • 问题是:“请判断以下断言的真伪或是否无法判断:这枚钉子不能导电。”
    • 要正确回答这个问题,大语言模型需要构建一条内在的逻辑推理链:“钉子 → 由铁制成 → 属于金属 → 能够导电”。基于此链条,模型应能判断出原断言实为“假”。然而,当前的LLM在处理此类问题时往往力不从心。
  • 逻辑一致性的缺失:LLMs 在回答不同但逻辑相关的问题时,容易出现前后矛盾、自相冲突的现象。

    • 一个典型的例子是,著名的 Macaw 问答模型对于“喜鹊是鸟类吗?”和“鸟类有翅膀吗?”这两个问题均给出了肯定的回答,但当被问及“喜鹊有翅膀吗?”时,却给出了否定的答案,这显然违背了基本的逻辑传递性。

为推动本领域研究的深入发展,我们系统地梳理了最前沿的技术方法,并构建了相应的分类框架。具体来说:

  • 针对逻辑问答的难题,现有的解决方案依据其技术路径,可以划分为基于外部求解器辅助、运用提示工程、依赖预训练优化以及通过微调增强等几大类别。
  • 至于逻辑一致性问题,我们深入探讨了常见的逻辑一致性概念,包括否定一致性、蕴涵一致性、传递一致性、事实一致性及其组合形式。并且,针对每一种逻辑一致性,我们都归纳整理了相应的技术应对策略。

此外,本综述还总结了该领域常用的基准数据集和评估指标,并对若干富有前景的未来研究方向进行了探讨,例如:将模型的逻辑推理能力扩展至模态逻辑,以便更好地处理包含不确定性的命题;以及开发能够同时满足多种逻辑一致性要求的高效算法等。

文章的整体结构如下图所示。

图片

图 1:大模型逻辑推理综述的分类体系,核心关注逻辑问答与逻辑一致性两大科学问题

大模型在逻辑推理领域面临的双重困境

尽管大语言模型在文本生成、内容分类和机器翻译等诸多自然语言任务中展现出非凡的性能,它们在执行复杂的逻辑推理时,依然面临着严峻的挑战。这背后的原因错综复杂,主要可以归结为:

  1. 大语言模型的预训练语料库主要由人类撰写的自然文本构成,这些文本中高质量的逻辑推理样本(例如严谨的演绎证明过程)相对匮乏
  2. 模型主要通过预测下一个词元(next token prediction)掩码语言建模(masked language modeling)等自监督任务来学习语言的语法结构、语义信息和世界知识,这种学习方式并不能直接确保模型内化并掌握逻辑推理的能力

上述固有的局限性,导致大语言模型在需要深度逻辑推理能力的以下两个核心任务上表现不尽如人意。

逻辑问答的挑战

在逻辑问答任务中,大语言模型的核心诉求是在给定一系列前提条件和推理规则的基础上,进行复杂的演绎、归纳或溯因推理,并最终给出答案。然而,模型在此类任务中往往难以生成正确的结果。具体而言,这些逻辑问题大致可以归为两类:

  • 判断某个断言是否能够从给定的信息中合乎逻辑地推导出来,即输出该断言的真值状态:真、假,或无法根据现有信息判断
  • 从多个候选选项中,识别出所有不与给定前提和约束条件相冲突的选项。

一个令人警醒的数据是,在专门评估逻辑推理能力的 FOLIO 数据集上,即便是拥有 130 亿参数的 LLaMA 模型,在采用 8-shot 学习(即给出8个示例)的情况下,其准确率也仅为 33.63%。这一数字仅仅略高于在“真、假、无法判断”三个选项中随机猜测所能达到的 33.33% 的准确率。如此表现,极大地制约了大语言模型在智能问答、自主决策支持等实际应用场景中的潜力。

逻辑一致性的缺失

逻辑一致性指的是大语言模型在处理复杂问题、回答一系列相关联的问题时,其输出不应出现自相矛盾的情况,也不应与已知的知识库信息或公认的逻辑规则相冲突。若出现此类情况,我们便称其违反了逻辑一致性。

值得注意的是,逻辑一致性的表现形式多种多样。

  • 例如,拥有 700 亿参数的 LLaMa-2 模型,在面对“信天翁是一种生物吗?”和“信天翁不是一种生物吗?”这两个互为否定的问题时,竟然都给出了“真”的回答,这明显违背了逻辑学中的矛盾律(一个命题与其否定不能同时为真)。
  • 又如前述的 Macaw 问答大模型,它对“喜鹊是鸟吗?”和“鸟有翅膀吗?”均回答“是”,但对“喜鹊有翅膀吗?”却回答“否”,这不符合三段论式的传递推理规则

大量研究已经表明,仅仅在大规模的问答数据集上进行训练,并不能确保大语言模型具备良好的逻辑一致性。这些相互矛盾的回答,无疑会引发用户对大语言模型可靠性可信度的深切担忧,尤其限制了其在高风险决策场景中的实际部署,例如医疗诊断辅助、法律咨询服务、工业流程精确控制等领域。

我们可以将逻辑问答的准确性和逻辑输出的一致性,视为衡量大语言模型逻辑推理能力的两个密不可分的方面。接下来,我们将对这两个方面最新的研究进展进行归纳与总结。

提升逻辑问答能力的策略探索

为了更清晰地界定大语言模型逻辑推理能力的边界,并探索更为有效的技术路径,研究者们已经开发出众多相关的测评任务与基准数据集,用以评估大模型在逻辑问答任务上的表现。在此基础上,大量研究工作致力于探索增强大语言模型逻辑推理能力的方法。这些方法依据其核心技术思路,大致可以分为三类:基于外部求解器的方法、基于提示工程的方法,以及预训练与微调相结合的方法。下面将对这些方法进行具体的介绍。

1. 基于外部求解器的方法

这类方法的总体思路是将以自然语言(NL)形式表达的逻辑问题,首先转化为符号语言(SL)的逻辑表达式。随后,利用外部的、专门的符号逻辑求解器(如 Z3、Prover9 等)对这些表达式进行精确的逻辑推理和求解。最后,通过诸如多数投票等集成算法,整合求解器的输出,生成最终的答案。其工作流程如图 2 所示。

图片

图 2:基于外部求解器方法提升大模型逻辑问答能力的示意图

这种方法的优势在于能够充分利用符号求解器在精确逻辑推理方面的强大能力,但其挑战在于自然语言到符号语言的准确转换往往非常困难。

2. 基于提示的方法

基于提示(Prompting)的方法则另辟蹊径,主要有两种思路:

  • 其一是通过精心设计提示语(Prompt),引导 LLMs 在回答问题的过程中显式地构建出一步步的逻辑推理链条(即所谓的“思维链”,Chain-of-Thought)。这种方式鼓励模型模拟人类的思考过程,从而提高复杂推理的准确性。
  • 另一类思路则是通过设计特定的提示,帮助模型实现自然语言(NL)与符号语言(SL)之间的表达转换,或者直接在提示中融入逻辑规则,以此间接或直接地增强大模型的逻辑推理能力。

提示工程的灵活性使其成为一个活跃的研究方向,但设计出普适且高效的提示仍然是一大挑战。

3. 预训练与微调方法

考虑到现有的大多数预训练语料库中,高质量的、包含显式逻辑多步推理或证明过程的样本相对稀缺,预训练和微调方法应运而生。这类方法的核心在于,通过主动向训练数据中补充包含演绎证明过程的文本或包含清晰逻辑推理步骤的自然语言范例来增强数据集。然后,基于这个经过逻辑强化的数据集,对大模型进行进一步的预训练或针对性的微调,以期内化其逻辑推理能力。

这种方法致力于从根本上提升模型的逻辑素养,但构建高质量的逻辑推理数据集本身就需要耗费大量的人力物力。

增强逻辑一致性的主要途径

随着大语言模型日益成为重要的知识获取和决策辅助工具,开发出可靠的模型并确保其安全部署变得愈发关键。在模型的可信赖性方面,逻辑一致性扮演着至关重要的角色:一个具备逻辑一致性的大模型能够有效避免在回答不同问题时产生内在矛盾,从而显著减少模型的“幻觉”现象,并增强终端用户在实际应用中对模型可靠性的信心。

逻辑一致性要求大模型在推理复杂问题、回答不同查询时,其输出不应与自身的先前回答、已有的知识库信息或公认的逻辑规则相冲突。确保大模型能够在推理过程中不产生自相矛盾的结论,也被称为维护其自洽性(self-consistency)。现有的大量研究表明,仅仅通过在海量数据集上进行训练,并不能天然保证其回答满足逻辑一致性的要求。

我们根据一个、两个乃至多个命题之间应具备的逻辑关系,对各种类型的逻辑一致性进行了细致的分类,并探讨了增强大模型逻辑一致性的不同方法及其相应的测评指标。

1. 否定一致性(Negation Consistency)

否定一致性是最基本的一致性要求,它规定了对单个命题及其否定的推理结果不能产生矛盾。也就是说,一个命题 p 和它的否定 图片 (读作 “非 p”) 不能同时成立,并且两者之中必然有一个为真。用逻辑符号表达即为:图片 (p 与非 p 不可能同时为真,即矛盾律),这等价于 图片 (p 或非 p 必有一个为真,即排中律)。

例如,如果模型肯定了“地球是平的”,那么它就不应该再肯定“地球不是平的”。

2. 蕴涵一致性(Implication Consistency)

蕴涵一致性基于逻辑规则 图片 (p 蕴涵 q,且 p 为真,则 q 为真,即肯定前件式)。这意味着,给定约束条件“如果 p 那么 q”(图片)和前提 p 为真,那么可以合乎逻辑地推出“q 也为真”。如果此时模型输出“q 为假”,那么我们就称该答案违反了蕴涵一致性。

举个例子,给定一个物理学常识:“所有铁都是金属(图片,若x是铁,则x是金属)”。那么,大模型不应该在肯定“这种材料是铁(p)”的同时,又肯定“这种材料是金属(q)”为“假”。

3. 传递一致性(Transitivity Consistency)

传递性通常用来描述三个或以上命题之间的逻辑顺承关系。给定两个前提:“p 蕴涵 q”(图片)和“q 蕴涵 r”(图片),那么根据传递律,可以推断出“p 蕴涵 r”(图片)。确保模型的推理遵循这种传递关系,即为传递一致性。研究表明,当前的大模型在这方面表现欠佳。

例如,前面提到的 Macaw 问答模型,它对“喜鹊是鸟类吗?”(p→q)和“鸟类有翅膀吗?”(q→r)这两个问题都回答“是”。根据传递性规则,这两个肯定的答案逻辑上可以推出“喜鹊有翅膀”(p→r)。然而,该模型对最后一个问题“喜鹊有翅膀吗?”却回答“否”,这显然与前两个答案构成了矛盾,违反了传递一致性。

4. 事实一致性(Fact consistency)

事实一致性关注的是大模型生成的回答或推理结果与一个给定的、可信的知识库(Knowledge Base, KB)之间的对齐程度。在事实核查(fact-checking)等任务中,通常通过将模型的输出与可靠知识库中的信息进行比对,来评估模型的回答是否符合知识库中既定的事实。

例如,如果知识库中明确记载“水的化学式是H₂O”,那么模型生成的关于水化学式的回答就不应与之相悖。

5. 复合一致性(Compositional consistency)

复合一致性则对模型提出了更高的要求:它不仅需要满足上述各种单一的逻辑一致性原则,还应该在将这些简单的逻辑一致性组合起来形成复杂的推理链时,对复合的逻辑规则依然保持一致。具体而言,当模型需要通过逻辑运算符(如蕴涵、合取、析取等)将多种逻辑关系串联起来,构建复杂的推理步骤时,必须确保其每一步推导都符合相应的逻辑规则,并且最终得出的结论是自洽且逻辑正确的。

例如,模型可能需要结合蕴涵、否定和传递性来解决一个多步骤问题,此时它在整个推理链条的每一个环节都应保持逻辑的严密性。

针对以上每一种逻辑一致性,我们都在综述中分别探讨了其相应的提升方法和评测基准。下图展示了一种通用的框架,旨在提升大模型回答的逻辑一致性:首先,针对每个问题生成多个候选回答;然后,评估不同问题回答组合之间在逻辑一致性上的违背程度;最后,通过优化算法为每个问题选择一个最优答案,从而使得整体的逻辑一致性违背程度降至最低。更多技术细节,敬请参阅我们的原文。

图片

图 3:一种提升大模型回答逻辑一致性的通用方法框架示意图

展望未来:逻辑推理研究的前沿方向

尽管现有研究已取得一定进展,但在提升大模型逻辑推理能力方面,仍有广阔的探索空间。以下几个方向尤其值得关注:

  • 模态逻辑推理能力的拓展:目前的方法大多局限于处理经典的命题逻辑与一阶逻辑。未来研究的一个重要方向,是将大语言模型的逻辑推理能力扩展至模态逻辑,以便更精妙地处理现实世界中常见的、涉及可能性、必然性、时间性或道义性等不确定性或附加条件的命题

  • 高阶逻辑推理的探索:由一阶逻辑进一步扩展得到的高阶逻辑,其核心特点在于允许对属性(即谓词本身)或函数进行量化,这使得它能够表达比一阶逻辑更为复杂和抽象的概念。未来,可以考虑训练大模型掌握高阶逻辑推理能力,以应对更为艰深复杂的推理问题。

  • 满足多种逻辑一致性的高效算法研发:当前用于增强逻辑一致性的方法,往往存在只能针对单一类型的逻辑一致性进行优化,或者计算复杂度过高等问题,难以在实际应用中大规模部署。因此,开发出能够同时让大模型满足多种逻辑一致性要求,并且计算上高效可行的方法,是未来研究中至关重要的一个环节。

结语

本篇综述系统地梳理了当前大语言模型逻辑推理能力的研究现状与前沿进展。我们看到,尽管大语言模型在诸多自然语言处理任务中取得了令人瞩目的成就,但其逻辑推理能力,尤其是在逻辑问答的准确性逻辑输出的一致性这两个核心方面,仍面临着重大的挑战。通过构建一个完整的分类体系,我们对该领域的前沿研究方法进行了系统的归纳和概述,同时整理了常用的公开基准数据集与评估指标。在此基础上,我们进一步探讨了未来可能引领该领域发展的重要研究方向。我们期望这份综述能为相关研究者提供有益的参考,共同推动大模型逻辑推理能力的持续进步。