从动力学角度理解深度学习动力学

报告简介:

尽管深度学习取得了巨大的成功,但是其机理依然缺乏系统性理解,深度网络包括大模型依然被认为是“黑箱”。多年来,对机理的理解主要从整体分析的角度,试图利用数学工具或统计物理理论等刻画其整体性质。

本报告强度学习模型一般都可以看成动力学系统,原则上应当借助非线性动力学理论进行刨析和理解。我们据此提出了一套动力学分析框架研究深度学习机理,这一框架包括以下主要内容:(1)基于神经元变换的保序或不保序特征,引入局域线性和非线性学习模式。这放弃了以神经元传输函数定义网络线性与非线性的通常做法,重新从本质上定义了学习模型的线性与非线性,定量刻画各层的非线性度。线性学习模式可以由单个神经元实现,而非线性学习模式需要多个神经元构成网络协同实现。由于定义在神经元和神经元组合层面上,因此我们可以分析神经网络每个局部的线性和非线性,从而能探测不同部分的学习动力学。(2)定义了输入矢量空间和权值矢量空间吸引域,分别刻画网络的推广能力和结构稳定性。吸引域是动力学系统的基本概念,而深度学习网络由于逐层迭代,从而具有吸引和吸引域的特征。两种吸引域具有不同的参数依赖,从而导致推广能力和结构稳定性的复杂依赖关系。基于这些概念,将揭示学习过程中学习动力学的突变及其所导致的“顿悟”与双下降等现象,揭示深度网络优越于浅层网络的动力学根源,揭示 regularization、batch size、learning rate、dropout 等常用策略起作用的机制。 特别是,我们将展示这套分析方法可以很好地展示 transformer 构架下各部分的学习动力学和结构与功能的演化,从而为分析和解剖大模型提供了一种工具。

报告人简介:

赵鸿
厦门大学教授。1988 年毕业于兰州大学理论物理专业,在国内外著名学术期刊发表 SCI论文 60 余篇,国家杰出青年基金获得者。 赵鸿教授主要研究领域为统计物理、输运理论、非线性动力学以及机器学习等。在低维晶格热输运、布朗运动,晶格系统热化理论等方面取得了一定的成绩,特别是基本解决了著名的 Fermi-Pasta-Ulam-Tsingou(FPUT)问题。同时也是国内比较早开展机器学习研究的学者,提出非对称霍普菲尔德模型,在机器学习预测理论研究方面提出了独特的模型和算法。最近在深度学习机理方面取得了进展,有望“解剖”或“透视”深度学习模型包括 transformer 构架下的学习动力学。