泛函尺度律:大模型尺度现象的动力学解释
报告简介:
大模型尺度律揭示:性能随训练数据规模和计算量的增长呈现出可预测的幂律提升。这一规律深刻推动了现代人工智能的发展,但长期停留在经验观察层面,缺乏理论理解。为探究其成因,我们引入幂律核回归(power-law kernel regression)这一简化模型,作为理论原型来抽象尺度现象的关键机制。基于该模型的动力学推导,我们提出泛函尺度律(Functional Scaling Laws, FSL):通过“内蕴时间”这一核心概念,将尺度律扩展为刻画整个训练过程的“泛函”形式,从而统一描述了不同模型规模和超参数设置下的损失演化。更进一步,FSL还揭示了“预热-稳定-退火”等常用学习率调度策略的有效性,显示出对实际大模型训练的潜在指导价值。
报告人简介:
吴磊
北京大学数学科学学院和国际机器学习研究中心助理教授,主要研究方向为深度学习的数理基础。2012 年毕业于南开大学,获数学与应用数学学士学位;2018 年毕业于北京大学,获得计算数学博士学位。2018 年 11 月至 2021 年 10 月,先后在美国普林斯顿大学和宾夕法尼亚大学从事博士后研究工作。相关成果发表于 NeurIPS、ICML、Annals of Statistics 、 Journal of Machine Learning Research、 IEEE Transactions on Information Theory等国际顶级会议与期刊。

