国家自然科学基金支持利用人工智能方法分析谱学和影像数据

2023-04-10 13:05:45691

来源：化工仪器网宋池

　　【化工机械设备网技术前沿】近日，国家自然科学基金委员会发布可解释、可通用的下一代人工智能方法重大研究计划2023年度项目指南。其中提到，2023年度资助的重点支持项目包括“高精度、可解释的谱学和影像数据分析方法”。

　　可解释、可通用的下一代人工智能方法重大研究计划面向人工智能发展国家重大战略需求，以人工智能的基础科学问题为核心，发展人工智能新方法体系，促进我国人工智能基础研究和人才培养，支撑我国在新一轮国际科技竞争中的主导地位。

　　该计划以深度学习的基本原理，可解释、可通用的下一代人工智能方法，面向科学领域的下一代人工智能方法的应用三大科学问题为核心，2023年计划资助培育项目25～30项，直接费用资助强度约为80万元/项，资助期限为3年，研究方向包括“深度学习的表示理论和泛化理论”等10个；计划资助重点支持项目6～8项，直接费用资助强度约为300万元/项，资助期限为4年，研究方向包括“经典数值方法与人工智能融合的微分方程数值方法”等8个。

　　其中，重点支持项目的“高精度、可解释的谱学和影像数据分析方法”研究方向要求：发展光谱、质谱和各类影像数据处理的人工智能方法。建立融合模拟与实验数据的可解释“谱-构-效”模型，开发人工智能驱动的光谱实时解读与反演软件；基于AlphaFold等蛋白结构预测方法，建立高精度冷冻电镜蛋白结构反演算法等。

　　人工智能与谱学以及各类成像技术的结合将有效提高分析数据的处理效率、精度等，还能够让分析数据处理环节的高度劳动密集型流程实现自动化。目前，国外仪器行业龙头厂商都已经开始利用人工智能技术分析仪器获得的数据。我国在这一方面提供国家自然科学基金支持也有助于国产仪器技术的进一步发展，缩小与国外仪器厂商的差距。

　　2023年度资助研究方向

　　(一)培育项目。

　　围绕上述科学问题，以总体科学目标为牵引，拟以培育项目的方式资助探索性强、选题新颖的申请项目，研究方向如下：

　　1. 深度学习的表示理论和泛化理论。

　　研究卷积神经网络(以及其它带对称性的网络)、图神经网络、transformer网络、循环神经网络、低精度神经网络、动态神经网络、生成扩散模型等模型的泛化误差分析理论、鲁棒性和稳定性理论，并在实际数据集上进行检验；研究无监督表示学习、预训练-微调范式等方法的理论基础，发展新的泛化分析方法，指导深度学习模型和算法设计。

　　2. 深度学习的训练方法。

　　研究深度学习的损失景观，包括但不限于：临界点的分布及其嵌入结构、极小点的连通性等，深度学习中的非凸优化问题、优化算法的正则化理论和收敛行为，神经网络的过参数化和训练过程对于超参的依赖性问题、基于极大值原理的训练方法、训练时间复杂度等问题，循环神经网络记忆灾难问题、编码-解码方法与Mori-Zwanzig方法的关联特性，发展收敛速度更快、时间复杂度更低的训练算法及工具，建立卷积网络、Transformer网络、扩散模型、混合专家模型等特定模型的优化理论及高效训练方法，深度学习优化过程对泛化性能的影响等。

　　3. 微分方程与机器学习。

　　研究求解微分方程正反问题及解算子逼近的概率机器学习方法；基于生成式扩散概率模型的物理场生成、模拟与补全框架；基于微分方程设计新的机器学习模型，设计和分析网络结构、加速模型的推理、分析神经网络的训练过程。

　　面向具有实际应用价值的反问题，研究机器学习求解微分方程的鲁棒算法；研究传统微分方程算法和机器学习方法的有效结合方法；研究高维微分方程的正则性理论与算法；研究微分方程解算子的逼近方法(如通过机器学习方法获得动理学方程、弹性力学方程、流体力学方程、Maxwell方程以及其它常用微分方程的解算子)；融合机器学习方法处理科学计算的基础问题(求解线性方程组、特征值问题等)。

　　4. 隐私保护的机器学习方法。

　　针对主流机器学习问题，结合安全多方计算、全同态加密、零知识证明等方法构建具备实用性的可信机器学习环境。发展隐私保护协同训练和预测方法，发展加密和隐私计算环境的特征聚类、查询和多模型汇聚方法，发展加密跨域迁移学习方法，发展面向对抗样本、后门等分析、攻击、防御和修复方法，研究机器学习框架对模型干扰、破坏和控制方法，发展可控精度的隐私计算方法。

　　5. 图神经网络的新方法。

　　利用调和分析、粒子方程等数学理论解决深度图网络的过度光滑、过度挤压等问题，针对多智能体网络协同控制、药物设计等重要应用场景设计有效的、具有可解释性的图表示学习方法。

　　6. 脑科学启发的新一代人工智能方法。

　　发展对大脑信息整合与编码的定量数学刻画和计算方法，设计新一代脑启发的深度神经网络和循环神经网络，提高传统神经网络的表现性能；建立具有树突几何结构和计算功能的人工神经元数学模型，并用于发展包含生物神经元树突计算的深度神经网络和循环神经网络，提高传统神经网络的表现性能；发展包含多种生物神经元生理特征和生物神经元网络结构特点的人工神经网络及其训练算法，解决图像识别、图像恢复、医学图像重构、地震波检测等应用问题。

　　7. 数据驱动与知识驱动融合的人工智能方法。

　　建立数据驱动的机器学习与知识驱动的符号计算相融合的新型人工智能理论和方法，突破神经网络模型不可解释的瓶颈；研究知识表示与推理框架、大规模隐式表达的知识获取、多源异构知识融合、知识融入的预训练模型、知识数据双驱动的决策推理等，解决不同场景的应用问题。

　　8. 生物医药领域的人工智能方法。

　　发展自动化程度高的先导化合物优化方法，建立生物分子序列的深度生成模型，准确、高效生成满足特定条件(空间结构、功能、物化性质、蛋白环境等)的分子序列；发展蛋白质特征学习的人工智能新方法，用于蛋白质功能、结构、氨基酸突变后亲和力与功能改变等预测以及蛋白质与生物分子(蛋白、肽、RNA、配体等)相互作用预测；针对免疫性疾病等临床表现差异大、预后差等问题，发展序列、结构等抗体多模态数据融合和预测的人工智能模型，用于免疫性疾病的早期诊断和临床分型等。

　　9. 科学计算领域的人工智能方法。

　　针对电子多体问题，建立薛定谔方程数值计算、第一性原理计算、增强采样、自由能计算、粗粒化分子动力学等的人工智能方法，探索人工智能方法在电池、电催化、合金、光伏等体系研究中的应用。

　　针对典型的物理、化学、材料、生物、燃烧等领域的跨尺度问题和动力学问题，通过融合物理模型与人工智能方法，探索复杂体系变量隐含物理关系的挖掘方法，建立构效关系的数学表达，构建具有通用性的跨尺度人工智能辅助计算理论和方法，解决典型复杂多尺度计算问题。

　　10. 人工智能驱动的下一代微观科学计算平台。

　　发展基于人工智能的高精度、高效率的第一性原理方法；面向物理、化学、材料、生物等领域的实际复杂问题，建立多尺度模型，实现高精度、大尺度和高效率的分子动力学模拟方法；探索建立人工智能与科学计算双驱动的“软-硬件协同优化”方法和科学计算专用平台。

　　(二)重点支持项目。

　　围绕核心科学问题，以总体科学目标为牵引，拟以重点支持项目的方式资助前期研究成果积累较好、对总体科学目标在理论和关键技术上能发挥推动作用、具备产学研用基础的申请项目，研究方向如下：

　　1. 经典数值方法与人工智能融合的微分方程数值方法。

　　设计融合经典方法和人工智能方法优势的新型微分方程数值方法。针对经典数值方法处理复杂区域的困难和人工智能方法效果的不确定性、误差的不可控性，发展兼具稳定收敛阶和简便性的新型算法；针对弹性力学、流体力学等微分方程，探索其解的复杂度与逼近函数表达能力之间的定量关系；开发针对三维含时问题的高效并行算法，并应用到多孔介质流等问题；发展求解微分方程反问题的新算法并用于求解实际问题。

　　2. 复杂离散优化的人工智能求解器。

　　面向混合整数优化、组合优化等离散优化问题，建立人工智能和领域知识结合的可通用的求解器框架；建立高精度求解方法和复杂约束问题的可控近似求解方法；发展超大规模并行求解方法和基于新型计算架构的加速方法；在复杂、高效软件设计等场景开展可靠性验证。

　　3. 开放环境下多智能体协作的智能感知理论与方法。

　　针对多模态信息融合中由于数据视角、维度、密度、采集和标注难易程度不同而造成的融合难题，研究基于深度学习的融合模型，实现模态一致性并减少融合过程中信息损失；研究轻量级的模态间在线时空对齐方法；研究能容忍模态间非对齐状态下的融合方法；研究用易采集、易标注模态数据引导的难采集、难标注模态数据的预训练与微调方法；研究大规模多任务、多模态学习的预训练方法，实现少样本/零样本迁移。

　　4. 可通用的专业领域人机交互方法。

　　针对多变输入信号，建立自动化多语种语言、图像、视频等多模态数据生成模型，发展可解释的多轮交互决策方法；建立机器学习和知识搜索的有效结合方法；探索新方法在不同专业领域场景中的应用。

　　5. 下一代多模态数据编程框架。

　　发展面向超大规模多模态数据(文本、图像、视频、向量、时间序列、图等)的存储、索引、联合查询和分析方法。发展一体化的多模态数据编程框架，建立自动化数据生成、评估和筛选方法，实现自动知识发现和自动模型生成性能的突破，并完成超大规模、多模态数据集上的可靠性验证。

　　6. 支持下一代人工智能的开放型高质量科学数据库。

　　研究跨领域、多模态科学数据的主动发现、统一存储和统一管理方法。研究基于主动学习的科学数据、科技文献知识抽取与融合方法。研究跨学科、多尺度科学数据的知识对象标识化、语义化构建方法。研究融合领域知识的多模态预训练语言模型，开发通用新型数据挖掘方法。形成具有一定国际影响力的覆盖生命、化学、材料、遥感、空间科学等领域的高质量、通用型科学数据库，为人工智能驱动的科学研究新范式提供基础科学数据资源服务。

　　7. 高精度、可解释的谱学和影像数据分析方法。

　　发展光谱、质谱和各类影像数据处理的人工智能方法。建立融合模拟与实验数据的可解释“谱-构-效”模型，开发人工智能驱动的光谱实时解读与反演软件；基于AlphaFold等蛋白结构预测方法，建立高精度冷冻电镜蛋白结构反演算法等。

　　8. 高精度、可解释的生物大分子设计平台。

　　建立人工智能驱动的定向进化方法，助力生物大分子优化设计。发展兼顾数据推断和物理机制筛选双重优势且扩展性高的人工智能方法，辅助物理计算高维势能面搜索。在医用酶及大分子药物设计上助力定向进化实验，将传统实验时间降低50%以上，通过人工智能设计并湿实验合成不小于3款高活性、高稳定性、高特异性的新型医用蛋白。发展基于人工智能的新一代生物大分子力场模型，大幅提升大分子模拟计算的可靠性，针对生物、医药、材料领域中的分子设计问题，实现化学精度的大尺度分子动力学模拟。

化工机械设备网

国家自然科学基金支持利用人工智能方法分析谱学和影像数据

上一篇：充电仅需18秒！中科大研发出新型水系锌离子电池

下一篇：塑料垃圾的七十二变，让人直呼：这谁能认出来！

相关资讯：

分享到：