大模型如何学会推理——及其在跨学科科学百科构建中的应用

报告简介:

传统知识载体往往只呈现结论,缺乏完整推理链,使知识难以校验、跨学科信息易丢失;而大语言模型(LLM)也主要从这类压缩语料中学习,其“长链推理”能力的来源成为核心问题。本报告基于DeepSeek/Kimi 等最新进展,介绍可验证奖励强化学习(RLVR)如何使模型从“System 1”直觉式关联,涌现出类似“System 2”的通用推理能力。我们提出 RLVR 会在语义空间诱导出稀疏、近树状的“概念网络”,并解释推理链演化、学习阶段变化及监督微调中的遗忘等现象,为理解 LLM 如何学会复杂推理提供统计物理视角。

在此基础上,我们展示如何利用长思维链“解压缩”人类科学知识,构建跨数学、物理、生物等多学科的可验证推理库,并进一步实现反向知识搜索与知识合成,形成约 20 万条目、低幻觉率、具备强交叉学科能力的科学百科系统 SciencePedia。

报告人简介:

陈锟
致力于研究大语言模型逻辑推理能力的涌现问题,并探索通用人工智能在基础科学研究中的新范式。他在中国科学技术大学获得学士学位后,在合肥微尺度国家实验室和美国马萨诸塞州立大学分别获得了量子信息与凝聚态物理的博士学位。博士后期间,他受西蒙斯 基金会资助,在罗格斯大学和Flatiron 研究所深造。陈锟受国家引才计划青年项目支持。任国家 重点研发子课题负责人。 担任SciencePedia 项目的首席科学家。