报告简介:
尽管深度学习取得了巨大的成功,但是其机理依然缺乏系统性理解,深度网络包括大模型依然被认为是“黑箱”。多年来,对机理的理解主要从整体分析的角度,试图利用数学工具或统计物理理论等刻画其整体性质。
本报告强度学习模型一般都可以看成动力学系统,原则上应当借助非线性动力学理论进行刨析和理解。我们据此提出了一套动力学分析框架研究深度学习机理,这一框架包括以下主要内容:(1)基于神经元变换的保序或不保序特征,引入局域线性和非线性学习模式。这放弃了以神经元传输函数定义网络线性与非线性的通常做法,重新从本质上定义了学习模型的线性与非线性,定量刻画各层的非线性度。线性学习模式可以由单个神经元实现,而非线性学习模式需要多个神经元构成网络协同实现。由于定义在神经元和神经元组合层面上,因此我们可以分析神经网络每个局部的线性和非线性,从而能探测不同部分的学习动力学。(2)定义了输入矢量空间和权值矢量空间吸引域,分别刻画网络的推广能力和结构稳定性。吸引域是动力学系统的基本概念,而深度学习网络由于逐层迭代,从而具有吸引和吸引域的特征。两种吸引域具有不同的参数依赖,从而导致推广能力和结构稳定性的复杂依赖关系。基于这些概念,将揭示学习过程中学习动力学的突变及其所导致的“顿悟”与双下降等现象,揭示深度网络优越于浅层网络的动力学根源,揭示 regularization、batch size、learning rate、dropout 等常用策略起作用的机制。 特别是,我们将展示这套分析方法可以很好地展示 transformer 构架下各部分的学习动力学和结构与功能的演化,从而为分析和解剖大模型提供了一种工具。
报告人简介:

