报告简介:
以大模型为特征的生成式人工智能近年来迅猛发展,正深刻影响并变革着科学技术的研究范式与工业革命进程。按照流行的认识 ,大模型的能力之所以强大源自它可能存在的智能涌现(Intelligent Emergence)。然而 ,什么是智能涌现?是什么要素摧生了智能涌现?大模型在什么情况下才会出现智能涌现?对这些问题充满着疑惑和争论。本报告提出一个数学框架和数学理论来对此加以解析。我们的核心思想是:利用三元随机函数ℰ(N,P,∂ℓ)来度量大模型泛化性 ,利用 ℰ(N,P,∂ℓ)的极限行为/极限速度(N→∞,P→∞,∂ℓ→0)来度量大模型的尺度变化律(Scaling Law) ,并以此为基础来解译智能涌现,这里 N是用以训练大模型的数据规模 ,P 是模型尺寸(包含参数个数) ,∂ℓ 是训练损失达到极小的程度。我们定义“极限架构”这一无穷维系统概念 ,说明大模型智能涌现的新特征/新行为即是该极限架构的特征和行为(其泛化能力由 ℰ(∞,∞,0)度量)。我们提出 ℰ(N,P,∂ℓ)- ℰ(∞,∞,0)的标准误差分解 ,即将其分解为权值误差 ℰ(N,P,∂ℓ)- ℰ(N,P,0),架构误差 ℰ(N,P,0)- ℰ(N,∞,0)和样本误差 ℰ(N,∞,0)- ℰ(∞,∞,0)之和 ,然后分别应用随机逼近工具、非线性 Lipschitz 算子工具 ,无限维 Bayes 估计工具来对这些误差进行估计。最终 ,我们获得了大模型泛化误差的如下极限速度估计:
∣ℰ(N ,P,∂ℓ)- ℰ(∞,∞,0)
≤〖β(N,P)〗^(1/‖∂l‖^2 )〖+O( (Lip(T))〗^P)∨O(e^(-m(A) lnf()P ) )+〖O(N〗^(-(α+κ)/(2α+2κ+d)))
其中,β(N,P)<1(随 N,P 趋于无穷趋于 1),Lip(T) ,m(A)分别是大模型基块的 Lip 数和 Dahlquits 数,α是真解的光滑性程度 ,κ是与网络架构组装方式相关的常数 ,d 是数据的维数。
根据这一估计 ,我们发现:1)大模型泛化性能与模型规模的尺度率在亚指数率与指数律之间;2)大模型泛化性能与训练数据规模的尺度率为亚指数率;3)当大模型的权值最优设定 ,而且其基块满足 Lip(T)<1 或 m(A)>0 时,模型规模、训练数据规模趋于无穷将导致大模型出现智能涌现。
对于线性大模型情形 ,我们进而应用大维随机矩阵理论详细刻画了大模型的极限行为 ,导出了模型尺寸与训练数据规模的最优配置律,展现了大模型完全不同于小模型的统计学习规律。最后 ,我们提出与本研究直接关联的系列公开问题。
报告人简介:
