AI : 无限维问题与有限维技术浅析大模型架构的设计基础与评估原理

报告简介:

AI问题的困难部分本质上都是无限维的,如机器学习、模拟学习方法论(SLeM)、世界模型构建等,但基于数字技术(特别是冯.诺依曼计算机)实现的AI技术都本质上是有限维的。这一差异导致AI研究有诸多困境,如缺少严密的数学基础、深度架构(大模型架构) 设计原理不清、对AI系统的性能评估靠测试而缺少理论判据等。本报告通过将智能问题描述作无限维函数空间上的优化问题,并将智能问题的任意极小化序列截断定义为AI深度架构,阐明“AI深度架构设计是函数空间上的算子簇公共不动点问题,而不是逼近论问题”,由此揭示并形成大模型架构设计的一个新原理与新方法。基于新原理与新方法,我们提出不同于GPT架构的一个新大模型架构—深度核网络。我们也提出“回到无限维系统来评价有限维技术/AI大模型”的极限论方法。这一方法基于大模型极限架构的存在性与性能来评估大模型,所建立起的理论提供了对大模型智能涌现和尺度律(Scaling Laws)的理论解释与直接判据。

报告人简介:

徐宗本
中国科学院院士,数学家、西安交通大学教授。主要从事应用数学、数据科学、人工智能的基础理论研究。曾提出稀疏信息处理的L(1/2)正则化理论,为稀疏微波成像提供了重要基础;发现并证明机器学习的“徐-罗奇”定理,解决了神经网络与模拟演化计算中的一些困难问题,为非欧氏框架下机器学习与非线性分析提供了普遍的数量推演准则;提出基于视觉认知的数据建模新原理与新方法,形成了聚类分析、判别分析、隐变量分析等系列数据挖掘核心算法,并广泛应用于科学与工程领域。曾获国家自然科学二等奖(2次)、国家科技进步二等奖、陕西省最高科技奖;国际IAITQM 理查德.普莱斯(Richard Price)数据科学奖; 中国陈嘉庚科学奖、华罗庚数学奖、吴文俊人工智能最高科技成就奖、苏步青应用数学奖;曾在2010年世界数学家大会上作45分钟特邀报告。