SMP 2025 论坛预告 | 基础模型强化学习技术论坛

会议官方
发布于 2025-11-03 / 116 阅读
0

SMP 2025 论坛预告 | 基础模型强化学习技术论坛

会议简介

全国社会媒体处理大会由中国中文信息学会社会媒体处理专业委员会(Social Media Processing, SMP)主办,大会专注于以社会媒体处理为主题的科学研究与工程开发,传播社会媒体处理最新的学术研究与技术成果提供广泛的交流平台,旨在构建社会媒体处理领域的产学研生态圈,成为中国乃至世界社会媒体处理的风向标。全国社会媒体处理大会创办于 2012 年,每年举办一次,现已成为社会媒体处理的重要学术活动。

本次全国社会媒体处理大会(SMP 2025)将于2025年11月20日至23日在湖北武汉召开。本届大会的主题是“走向人类社会的大模型”,旨在探索在大模型快速发展的今天,大模型赋能人类社会可持续发展的路径,聚焦大模型与人类发展的深度融合。大会议程将包括讲习班、大会特邀报告、特高水平综合期刊(Science、Nature)论文作者交流专场、基础模型论坛、交叉专题论坛、SMP 基金项目论坛、SMP 特色论坛、评测与竞赛、海报与系统展示等环节。

会议安排

会议时间:2025年11月20日-23日

  • 2025年11月20日-11月21日:前沿技术讲习班

  • 2025年11月22日-11月23日:主会议

会议地点:湖北省武汉市临空港温德姆花园酒店

会议官网:http://smp2025.cips-smp.org

论坛简介

在大模型迈向更高智能的征程中,大规模强化学习技术正成为关键驱动引擎。本论坛围绕“基础模型的大规模强化学习”主题展开,聚焦大模型、自主智能体、强化学习等前沿议题。与会专家将从核心算法革新、通用智能体架构设计、智能体能力的高效扩展和复杂科学推理的前沿应用等多个关键维度展开系统讨论,深入解析强化学习如何为大模型智能水平的持续提升注入活力。

论坛主题:基础模型强化学习技术论坛

论坛时间:2025年11月23日 13:30-15:30

论坛地点VIP 2+3 厅

论坛主席

刘知远

清华大学计算机系

长聘副教授

刘知远,清华大学计算机系长聘副教授、博士生导师,学生学习与发展指导中心主任,国家青年人才。主要研究方向为大模型技术、知识图谱和社会计算。已在 ACL、EMNLP、AAAI、IJCAI 等人工智能领域的著名期刊和会议发表相关论文 200 余篇,Google Scholar 统计引用 7.2 万余次。曾获教育部自然科学一等奖、中国中文信息学会钱伟长中文信息处理科学技术奖一等奖、世界互联网领先科技成果奖、第八届北京市青年教学名师奖。

报告信息

报告一

俞扬

南京大学

人工智能学院教授

报告主题:面向大模型的强化学习技术探索

报告摘要:强化学习已从早期游戏任务扩展到机器人控制等复杂物理环境中的应用,并在大模型对齐与推理能力的增强中扮演了重要角色,受到高度关注。本次报告将围绕面向大模型的强化学习技术展开,包括强化学习技术的发展过程,奖励模型的获取,并讨论未来面临的挑战。

嘉宾简介:俞扬,南京大学人工智能学院教授,主要从事人工智能、机器学习、强化学习方向的研究,工作获 5 项国际论文奖、3项国际算法竞赛冠军。入选国家青年人才计划、IEEE Intelligent Systems “AI’s 10 to Watch”,获 CCF-IEEE 青年科学家奖,首届亚太数据挖掘“青年成就奖”,并受邀在国际人工智能联合大会 IJCAI 2018 上作“青年亮点报告”。

报告二

林衍凯

中国人民大学

高瓴人工智能学院

准聘副教授

报告主题:面向通用智能的大模型自主智能体

报告摘要:近年来,大模型在自然语言处理、计算机视觉以及生物学等多个领域展现了显著的应用潜力。通过大规模预训练,这些模型获得了在复杂交互环境中的卓越能力,尤其是在理解、推理、规划和决策等方面,表现出对复杂真实场景的高度适应性。这为大模型在自主调用工具、解决复杂任务等方面的实际应用奠定了坚实基础,显示出巨大的发展潜力。本次报告将聚焦大模型自主智能体,深入探讨其在理解用户需求的基础上,如何有效分解多步任务并调用适当的工具解决复杂问题,将涵盖自主智能体的统一框架、主要技术挑战、重要研究成果以及未来发展方向。

嘉宾简介:林衍凯,中国人民大学高瓴人工智能学院准聘副教授,主要研究方向为预训练模型和大模型智能体,Google Scholar 统计引用达到 2.1 万次,2020-2024  年连续五年入选爱思唯尔(Elsevier)中国高被引学者和斯坦福大学全球前 2% 顶尖科学家年度榜单、AI 100 青年先锋。其成果获评教育部自然科学一等奖、 2022 年世界互联网大会领先科技成果(全球共 15 项)。现任 CCF NOI 科学委员会委员。

报告三

温颖

上海交通大学

人工智能学院

长聘教轨副教授

报告主题:基于强化学习的大模型智能体能力扩展方法

报告摘要:大模型的能力提升依赖于持续获取高质量的数据和反馈信号。虽然预训练阶段已利用大量优质数据,但持续增长的关键在于不断引入新的高质量数据。由于人工数据生产成本高且难以满足需求,探索大模型自我迭代生成和筛选数据的方法变得至关重要。本讲座将探讨大模型基于强化学习的数据再生产过程,其核心挑战在于持续自动化设计并扩展大模型的任务环境、奖励信号,通过应用不同级别的反馈信号进行强化学习,确保只有最有价值的数据用于模型的迭代训练,激发大语言模型的包括认知与元认知能力在内的各项智能能力,以提升大语言模型智能体的泛化能力和决策任务性能。

嘉宾简介:温颖,上海交通大学人工智能学院长聘教轨副教授,博士生导师。他的研究方向涉及强化学习、多智能体系统及决策大模型。他于2020年和2016年分别获得英国伦敦大学学院计算机系博士学位和研究型硕士学位,入选上海海外高层次人才,作为负责人主持自然科学青年基金,国家重点研发计划课题,上海市科学智能百团百项,上海市青年科技英才扬帆计划。他的五十余篇研究成果发表在 ICML, NeurIPS, ICLR, IJCAI, AAMAS 等相关领域的一流国际会议上。曾获 CoRL 2020 最佳系统论文奖,AAMAS 2021 Blue Sky Track 最佳论文奖,WAIC’25 云帆奖璀璨明星提名奖。他连续多年担任 ICML, NeurIPS, IJCAI, AAAI, IROS, ICAPS, Operational Research 等国际知名会议/期刊的 PC 成员或审稿人。

报告四


崔淦渠

上海人工智能实验室

青年科学家

报告主题:强化学习驱动的大模型科学推理

报告摘要:强化学习技术是构建大模型深度推理能力的核心。本报告将介绍强化学习如何应用于提升大模型科学推理能力,从基于结果奖励的强化学习开始,本报告将首先介绍大模型强化学习基础算法和原理的前沿进展,包括如何应用密集奖励,如何使在“探索-利用”之间找到平衡,以及如何实证地证明强化学习能够教会模型新的技能。本报告还将介绍讲者团队在科学推理领域应用强化学习的最新进展和实践经验,包括首个国际奥林匹克物理竞赛金牌模型P1的训练经验和发现。

嘉宾简介:崔淦渠,上海人工智能实验室青年科学家,博士毕业于清华大学计算机系,研究方向为大语言模型的对齐与强化学习技术。在 ICML, NeurIPS, ACL, KDD 等国际人工智能顶级会议与期刊上发表论文二十余篇,谷歌学术引用超 12000 次。获 WAIC 云帆奖明日之星、清华大学优秀博士论文、清华大学优秀毕业生等荣誉。代表作包括偏好对齐数据 UltraFeedback, UltraInteract,密集过程奖励算法 Implicit PRM, PRIME 以及对强化学习熵机制的研究。

会议注册见会议现已开放注册 - SMP2025-第十三届全国社会媒体处理大会

交通住宿见:交通住宿 - SMP2025-第十三届全国社会媒体处理大会