-
泛函尺度律:大模型尺度现象的动力学解释吴磊 研究员 北京大学
大模型尺度律揭示:性能随训练数据规模和计算量的增长呈现出可预测的幂律提升。这一规律深刻推动了现代人工智能的发展,但长期停留在经验观察层面,缺乏理论理解。为探究其成因,我们引入幂律核回归(power-law kernel regression)这一简化模型,作为理论原型来抽象尺度现象的关键机制。基于该模型的动力学推导,我们提出泛函尺度律(Functional Scaling Laws, FSL):通过“内蕴时间”这一核心概念,将尺度律扩展为刻画整个训练过程的“泛函”形式,从而统一描述了不同模型规模和超参数设置下的损失演化。更进一步,FSL还揭示了“预热-稳定-退火”等常用学习率调度策略的有效性,显示出对实际大模型训练的潜在指导价值。 -
从数据特征理解深度学习许志钦 教授 上海交通大学
理解深度学习在实际问题中的性能需要考虑模型特征、数据特征以及连接这两部分的优化算法的特征。该报告将从函数频率、有效复杂度、信噪比、推理复杂度、关联统计量等角度来分析数据特征,并设计实验来挖掘模型和优化的特征,以理解深度学习的泛化能力和语言模型的推理能力,并对实际的模型训练提供一些参考。 -
人工智能的可解释性及其能力边界黄海平 教授 中山大学
2024 年诺贝尔物理学奖颁发给霍普菲尔德和辛顿。物理学家霍普菲尔德被认为是计算神经科学的先驱,而计算机科学家辛顿早年运用物理学的思想开创了深度学习。以大语言模型(如 DeepSeek)为代表的人工智能毋庸置疑是当今最具革命的技术前沿之一。本报告将从物理学角度谈谈 AI 能否真的理解物理世界,揭示其能力边界,以及对未来 AI 发展的思考和展望。 -
大模型如何学会推理——及其在跨学科科学百科构建中的应用陈锟 副研究员 中国科学院理论物理研究所
传统知识载体往往只呈现结论,缺乏完整推理链,使知识难以校验、跨学科信息易丢失;而大语言模型(LLM)也主要从这类压缩语料中学习,其“长链推理”能力的来源成为核心问题。本报告基于DeepSeek/Kimi 等最新进展,介绍可验证奖励强化学习(RLVR)如何使模型从“System 1”直觉式关联,涌现出类似“System 2”的通用推理能力。我们提出 RLVR 会在语义空间诱导出稀疏、近树状的“概念网络”,并解释推理链演化、学习阶段变化及监督微调中的遗忘等现象,为理解 LLM 如何学会复杂推理提供统计物理视角。在此基础上,我们展示如何利用长思维链“解压缩”人类科学知识,构建跨数学、物理、生物等多学科的可验证推理库,并进一步实现反向知识搜索与知识合成,形成约 20 万条目、低幻觉率、具备强交叉学科能力的科学百科系统 SciencePedia。 -
机器学习与量子计算交叉下的张量网络量子多体新方法冉仕举 教授 首都师范大学
张量网络作为一种核心数学工具,在量子多体模拟、量子计算与机器学习等领域应用广泛。本报告将从其高效表示大规模参数这一关键切入点出发,重点介绍如何结合张量网络与变分量子线路发展高效量子多体算法,具体将考虑量子多体态纠缠的高效计算,与量子多体哈密顿量的全谱对角化。

