第130次:数据驱动的新地学

日期:2022年10月29-30日

地点:北京·中国科学院学术会堂

依托单位:中国科学院学部

  • 重建地球生物多样性历史的思考与方案

    演讲人:沈树忠

    地球自现代生态系统建立至今已有 5 亿多年的演化历史,生物经历了 由简单到复杂、由少到多的演化过程,什么因素决定了物种多样性?重大 环境和气候变化事件如何影响生物多样性?回答这些重要科学问题,首先 需要建立地质历史中海陆生物多样性的精细模式。地球上曾经生活过的生 物 99%以上已经灭绝,深时生物多样性重建依赖于不完整的化石记录。然 而,受生物保存差异、岩相变化、采集程度影响较大,如何通过不完整的 化石记录重建地质历史时期生物多样性的演变历史是一个重大科学难题。 目前国际主流的方法是基于已发表的文献建立数据库,划分统计时间段, 进行全球或区域大尺度的多样性统计。但受限于方法自身的局限,此类研 究的时间精度低(分辨率通常在千万年左右),因此,难以揭示重大生物 事件的精细过程,无法识别突发性生物多样性灾难事件。最新的研究表明, 深时生物多样性研究的时间分辨率必须至少达到十万年级别才有可能真 实地揭示生物多样性演变的准确模式。基于高精度综合地层学和同位素地 质年代学的定量地层学和人工智能算法是解决这一问题的重要途径。

  • 地球大数据思考

    演讲人:郭华东

    科学大数据具有数据密集型范式的特点,它具有数据的不可重复性、数据的高度不确定性、数据的高维特性、数据分析的高度计算复杂性等内部特征。利用大量数据的相关性可取代因果关系和理论与模型,基于数据间的相关性能够获得新知识、新发现。作为少量依赖因果关系,而主要依靠相关性发现新知识的新模式,大数据已成为继经验、理论和计算模式之后的数据密集型科学范式的典型代表,带来科研方法论的创新。作为科学大数据重要组成部分的地球大数据,正在成为地球科学和信息科学交叉的新兴前沿研究领域,可为推动地球科学深度发展并产出重大科学发现作出贡献。地球大数据是一种典型的科学大数据,它由与地球有关的数据构成,包括地球的陆地、海洋、大气及与人类活动相关的数据。地球大数据是具有空间属性的地球科学领域大数据,主要产生于航天与地面大型科学实验装置、探测设备、传感器、社会经济观测以及计算机模拟过程。它一方面具有海量、多源、多时相、异构、多尺度、非平稳等大数据的一般性质,同时具有很强的时空关联和物理关联,具有数据生成方法和来源的可控性。

  • 机理与数据的融合计算

    演讲人:张平文

    通过剖析应用数学(含统计学)的演进过程,认识到融合计算已经成 为当前科研和创新的重要范式;然后介绍融合计算的若干研究模式,及其 为应用数学发展所带来的增长点;接下来通过精准气象预报和分子动力学 模拟两个案例来详细阐述机理与数据融合计算的实践过程;最后对融合计 算的未来发展趋势进行探讨。

  • 机器学习: 从先验假设到自动化

    演讲人:徐宗本

    机器学习是人工智能的最基础、最核心技术(算法),但机器学习的执 行通常都是以一组基本的先验假设为前提的,这些基本假设包括: 假设空 间的大容量假设、训练数据的完备性假设、损失度量的独立性假设、正则 项的先验决定假设、分析框架的欧几里德假设等。一个机器学习算法的性 能是由这些先验假设(要素选择)决定的。本报告分析这些假设的作用、 局限及其影响,提出突破这些基本假设的系列途径与方法。每一情况下, 我们举例说明新突破带来新价值。 机器学习的当下应用还是“人工”的:人工标注数据、选择数据,人工 搭建网络、选择算法,人工切换任务、适应环境;仍处于“选择”阶段,还 没有达到“自主设计”“创新设计”水平。随着人工智能技术的发展,机器学 习必须要从人工化,走向自动化,迈向自主化。在这样的 AI 发展大趋势 下,让机器学会人类的学习方法论,或者更严格地说,学会模拟学习方法 论(Simulate Learning Methodology,SLeM)成为一种必需和趋势。本报告后 一部分严格定义学习方法论问题,提出 SLeM 的双层优化模型和“超参数 化”求解方法,建立 SLeM 的基本理论,并展示对多个机器学习自动化问题 的成功应用。

  • 青藏高原地球系统观测、数据与模拟

    演讲人:陈发虎

    青藏高原是我国重要的水资源安全屏障、生态安全屏障、国土安全屏 障、战略资源储备基地、中华民族特色文化保护地。青藏高原以其强烈的 多圈层相互作用闻名于世,是国际地球系统科学研究的天然实验室。研究 青藏高原的形成、演化与影响, 是当前国际地球系统科学研究的前沿领域。 青藏高原碰撞隆升导致地形地貌、大气环流、自然环境格局和生物与 人类演化产生链式响应。同时,青藏高原是受全球变化影响最剧烈的区域, 其变化进一步影响着区域乃至全球的气候环境变化。